主頁 >  其他 > 自然語言處理 Paddle NLP - 詞向量應用展示

自然語言處理 Paddle NLP - 詞向量應用展示

2023-06-13 07:56:00 其他

詞向量(Word embedding),即把詞語表示成實數向量,“好”的詞向量能體現詞語直接的相近關系,詞向量已經被證明可以提高NLP任務的性能,例如語法分析和情感分析,
PaddleNLP已預置多個公開的預訓練Embedding,您可以通過使用paddlenlp.embeddings.TokenEmbedding介面加載各種預訓練Embedding,本篇教程將介紹paddlenlp.embeddings.TokenEmbedding的使用方法,計算詞與詞之間的語意距離,并結合詞袋模型獲取句子的語意表示,

字典:有字,有索引(位置編碼),就構成了一個字典,如下表
調詞向量,是通過編碼,去查詞向量矩陣,通過 0 查到 人們

位置編碼
人們 0
1
3 2
預訓練模型中的字典,會和這邊介紹的有所不同,分詞后可能會變成拆開的
位置編碼
------------ ------------
0
1
2
3 3

加載TokenEmbedding

TokenEmbedding()引數

  • embedding_name
    將模型名稱以引數形式傳入TokenEmbedding,加載對應的模型,默認為w2v.baidu_encyclopedia.target.word-word.dim300的詞向量,
  • unknown_token
    未知token的表示,默認為[UNK],
  • unknown_token_vector
    未知token的向量表示,默認生成和embedding維數一致,數值均值為0的正態分布向量,
  • extended_vocab_path
    擴展詞匯串列檔案路徑,詞表格式為一行一個詞,如引入擴展詞匯串列,trainable=True,
  • trainable
    Embedding層是否可被訓練,True表示Embedding可以更新引數,False為不可更新,默認為True,

https://gitee.com/paddlepaddle/PaddleNLP/blob/develop/paddlenlp/embeddings/token_embedding.py

 def __init__(
        self,
        embedding_name=EMBEDDING_NAME_LIST[0],  # 詞向量名字
        unknown_token=UNK_TOKEN,
        unknown_token_vector=None,
        extended_vocab_path=None,
        trainable=True,
        keep_extended_vocab_only=False,
    ):
    ...

# 是否要進行梯度更新,默認不做
def set_trainable(self, trainable):
# 查找詞向量
def search(self, words):
# 通過詞,找對應的ID
def get_idx_from_word(self, word):
# 余弦相似度
def cosine_sim(self, word_a, word_b):

w2v.baidu_encyclopedia.target.word-word.dim300 左右方向 300,上下方向:3萬個
300維,每個詞對應的詞向量,訓練詞向量時,設定好的引數,如果設定200維,訓練出來的所有詞的詞向量都是200維,將詞壓縮到300維空間做Embedding嵌入方式表征得到的結果,
300維這個數字是經驗得來的,比較大,相對準一些,如果追求速度,就用100維的
Token: 比如打一句話,把它拆成中文能理解的一個個詞,這個詞就是一個Token,如果拆成一個字一個字,字就是 Token,NLP里就是這么叫的,專業詞匯
常用的分詞工具:jieba、IAC(百度)
image

醫療、法律,不建議使用訓練好的通用詞向量,需要自己去訓練,會達到意想不到的效果

# TokenEmbedding => 向量矩陣 Skip-gram 中的 訓練好的 W
from paddlenlp.embeddings import TokenEmbedding

# 初始化TokenEmbedding, 預訓練embedding未下載時會自動下載并加載資料
# 中英文混雜比較厲害時不建議使用 訓練好的詞向量 `w2v.baidu_encyclopedia.target.word-word.dim300`,如果有就能調到如果沒有就UNK,所以需要自己去訓練
# https://gitee.com/paddlepaddle/PaddleNLP/blob/develop/paddlenlp/embeddings/constant.py
token_embedding = TokenEmbedding(embedding_name="w2v.baidu_encyclopedia.target.word-word.dim300")

# 查看token_embedding詳情
print(token_embedding)

認識一下Embedding

TokenEmbedding.search()
獲得指定詞匯的詞向量,

test_token_embedding = token_embedding.search("中國")
print(test_token_embedding)
# 300維向量
[[ 0.260801  0.1047    0.129453 -0.257317 -0.16152   0.19567  -0.074868
   0.361168  0.245882 -0.219141 -0.388083  0.235189  0.029316  0.154215
  -0.354343  0.017746  0.009028  0.01197  -0.121429  0.096542  0.009255
   0.039721  0.363704 -0.239497 -0.41168   0.16958   0.261758  0.022383
   ...
   0.123634  0.282932  0.140399 -0.076253 -0.087103  0.07262 ]]

TokenEmbedding.cosine_sim()
計算詞向量間余弦相似度,語意相近的詞語余弦相似度更高,說明預訓練好的詞向量空間有很好的語意表示能力,

# 查找兩個詞之間的相似距離,向量的余弦夾角
score1 = token_embedding.cosine_sim("女孩", "女人")
score2 = token_embedding.cosine_sim("女孩", "書籍")
print('score1:', score1)
print('score2:', score2)

# 應用場景:輸入法,
# (搜索、論文查重,是通過現有詞向量,再做句子的表征,這樣才能做句子和句子之間的匹配)
score1: 0.7017183
score2: 0.19189896

詞向量映射到低維空間

使用深度學習可視化工具VisualDL的High Dimensional組件可以對embedding結果進行可視化展示,便于對其直觀分析,步驟如下:

  1. 升級 VisualDL 最新版本,

pip install --upgrade visualdl

  1. 創建LogWriter并將記錄詞向量,

  2. 點擊左側面板中的可視化tab,選擇‘token_hidi’作為檔案并啟動VisualDL可視化

# 獲取詞表中前1000個單詞
labels = token_embedding.vocab.to_tokens(list(range(0, 1000)))
# 取出這1000個單詞對應的Embedding
test_token_embedding = token_embedding.search(labels)

# 引入VisualDL的LogWriter記錄日志
from visualdl import LogWriter

with LogWriter(logdir='./token_hidi') as writer:
    writer.add_embeddings(tag='test', mat=[i for i in test_token_embedding], metadata=https://www.cnblogs.com/vipsoft/p/labels)

啟動VisualDL查看詞向量降維效果

啟動步驟:

  • 1、切換到「可視化」指定可視化日志
  • 2、日志檔案選擇 'token_hidi'
  • 3、點擊「啟動VisualDL」后點擊「打開VisualDL」,選擇「高維資料映射」,即可查看詞表中前1000詞UMAP方法下映射到三維空間的可視化結果:

image

可以看出,語意相近的詞在詞向量空間中聚集(如數字、章節等),說明預訓練好的詞向量有很好的文本表示能力,

使用VisualDL除可視化embedding結果外,還可以對標量、圖片、音頻等進行可視化,有效提升訓練調參效率,關于VisualDL更多功能和詳細介紹,可參考VisualDL使用檔案,

基于TokenEmbedding衡量句子語意相似度

在許多實際應用場景(如檔案檢索系統)中, 需要衡量兩個句子的語意相似程度,此時我們可以使用詞袋模型(Bag of Words,簡稱BoW)計算句子的語意向量,

首先,將兩個句子分別進行切詞,并在TokenEmbedding中查找相應的單詞詞向量(word embdding),

然后,根據詞袋模型,將句子的word embedding疊加作為句子向量(sentence embedding),

最后,計算兩個句子向量的余弦相似度,

相對于RNN,CNN,用詞向量構造的句子表征有哪些優點:

  • 快、簡單
  • 最重要的一點,詞向量是預訓練好的,是一種無監督的表達,并沒有經過任何訓練,很快就能做一個無監督的表征,用RNN、CNN,需要做標注,需要去訓練,才能讓一個模型穩定

在做一些相似度問題的時候,不管是檢索還是其它搜索等等應用場景,做句子和句子匹配的一些相似度問題時,都可以分成兩步

  • 做一個粗召回,用無監督的方式,快速排個前100
  • 再用一些訓練好的匹配模型RNN等,再精排前10名

基于TokenEmbedding的詞袋模型

使用BoWEncoder搭建一個BoW模型用于計算句子語意,

  • paddlenlp.TokenEmbedding組建word-embedding層
  • paddlenlp.seq2vec.BoWEncoder組建句子建模層,最簡單,最快速的構建方式,常見的建模方式

PaddleNLP 已封裝了下列模型
https://gitee.com/paddlepaddle/PaddleNLP/blob/develop/paddlenlp/seq2vec/encoder.py

__all__ = ["BoWEncoder", "CNNEncoder", "GRUEncoder", "LSTMEncoder", "RNNEncoder", "TCNEncoder"]

原始碼解讀:

import paddle
import paddle.nn as nn
import paddlenlp


class BoWModel(nn.Layer):
    def __init__(self, embedder):
        super().__init__()
        self.embedder = embedder  # TokenEmbedding 300的詞向量
        emb_dim = self.embedder.embedding_dim
        self.encoder = paddlenlp.seq2vec.BoWEncoder(emb_dim) # 把 300 維度傳進去,進行初始化,詞帶模型就搭好了,
        self.cos_sim_func = nn.CosineSimilarity(axis=-1)  # 余弦相似度的計算公式

    # 判斷兩個句子的相似度
    def get_cos_sim(self, text_a, text_b):
        text_a_embedding = self.forward(text_a) #句子A的向量
        text_b_embedding = self.forward(text_b) #句子B的向量
        cos_sim = self.cos_sim_func(text_a_embedding, text_b_embedding) # 余弦相似度計算
        return cos_sim

    # 模型資料扭轉方式
    def forward(self, text):
        # 南哥來聽課,南哥:1、來:3、聽課:7、冒號:0 => text = 1 3 7 0
        # batch_size = N 句話
        # Shape: (batch_size, num_tokens, embedding_dim)
        # 資料進來先過哪個層(上面定義好的 embedding 層
        embedded_text = self.embedder(text)
        # embedded_text 張量 => [[1對應300維的向量] [3對應300維的向量] [7對應300維的向量] [0對應300維的向量]]
        # Shape: (batch_size, embedding_dim)
        summed = self.encoder(embedded_text)
        # 最終形成句子表征
        return summed

# 模型的初始化(實類化)
model = BoWModel(embedder=token_embedding)


def forward(self, inputs, mask=None):
    ....
    # Shape: (batch_size, embedding_dim)
    # 沿著axis = 1 軸方向求和 ,就是將 1的位置相加、2的位置相加....、300的位置相加,得到整個句子的句向量
    # 用詞帶的方式得到句子向量的表征,表達的句子簡單些,想更準確些,可以加一下 tfidf 權重因子
    summed = inputs.sum(axis=1)
    return summed

class RNNEncoder(nn.Layer):
        ...
        encoded_text, last_hidden = self.rnn_layer(inputs, sequence_length=sequence_length)
        if not self._pooling_type:
            # We exploit the `last_hidden` (the hidden state at the last time step for every layer)
            # to create a single vector.
            # If rnn is not bidirection, then output is the hidden state of the last time step
            # at last layer. Output is shape of `(batch_size, hidden_size)`.
            # If rnn is bidirection, then output is concatenation of the forward and backward hidden state
            # of the last time step at last layer. Output is shape of `(batch_size, hidden_size * 2)`.
            if self._direction != "bidirect":
                output = last_hidden[-1, :, :]
            else:
                output = paddle.concat((last_hidden[-2, :, :], last_hidden[-1, :, :]), axis=1)
        else:
            # We exploit the `encoded_text` (the hidden state at the every time step for last layer)
            # to create a single vector. We perform pooling on the encoded text.
            # The output shape is `(batch_size, hidden_size * 2)` if use bidirectional RNN,
            # otherwise the output shape is `(batch_size, hidden_size * 2)`.
            # 池化層的操作
            if self._pooling_type == "sum":                 # 求和池化
                output = paddle.sum(encoded_text, axis=1)
            elif self._pooling_type == "max":               # 最大池化
                output = paddle.max(encoded_text, axis=1)
            elif self._pooling_type == "mean":              # 平均池化
                output = paddle.mean(encoded_text, axis=1)
            else:
                raise RuntimeError(
                    "Unexpected pooling type %s ."
                    "Pooling type must be one of sum, max and mean." % self._pooling_type
                )
        return output

構造Tokenizer

data.py

import numpy as np
import jieba
import paddle

from collections import defaultdict
from paddlenlp.data import JiebaTokenizer, Pad, Stack, Tuple, Vocab

class Tokenizer(object):
    def __init__(self):
        self.vocab = {}
        self.tokenizer = jieba
        self.vocab_path = 'vocab.txt'
        self.UNK_TOKEN = '[UNK]'
        self.PAD_TOKEN = '[PAD]'

    def set_vocab(self, vocab):
        self.vocab = vocab
        self.tokenizer = JiebaTokenizer(vocab)

    def build_vocab(self, sentences):
        word_count = defaultdict(lambda: 0)
        for text in sentences:
            words = jieba.lcut(text)
            for word in words:
                word = word.strip()
                if word.strip() !='':
                    word_count[word] += 1

        word_id = 0
        for word, num in word_count.items():
            if num < 5:
                continue
            self.vocab[word] = word_id
            word_id += 1
        
        self.vocab[self.UNK_TOKEN] = word_id
        self.vocab[self.PAD_TOKEN] = word_id + 1
        self.vocab = Vocab.from_dict(self.vocab,
            unk_token=self.UNK_TOKEN, pad_token=self.PAD_TOKEN)
        # dump vocab to file
        self.dump_vocab(self.UNK_TOKEN, self.PAD_TOKEN)
        self.tokenizer = JiebaTokenizer(self.vocab)
        return self.vocab

    def dump_vocab(self, unk_token, pad_token):
        with open(self.vocab_path, "w", encoding="utf8") as f:
            for word in self.vocab._token_to_idx:
                f.write(word + "\n")
    
    def text_to_ids(self, text):
        input_ids = []
        unk_token_id = self.vocab[self.UNK_TOKEN]
        for token in self.tokenizer.cut(text):
            token_id = self.vocab.token_to_idx.get(token, unk_token_id)
            input_ids.append(token_id)

        return input_ids

    def convert_example(self, example, is_test=False):
        input_ids = self.text_to_ids(example['text'])

        if not is_test:
            label = np.array(example['label'], dtype="int64")
            return input_ids, label
        else:
            return input_ids

def create_dataloader(dataset,
                      trans_fn=None,
                      mode='train',
                      batch_size=1,
                      pad_token_id=0):
    """
    Creats dataloader.
    Args:
        dataset(obj:`paddle.io.Dataset`): Dataset instance.
        mode(obj:`str`, optional, defaults to obj:`train`): If mode is 'train', it will shuffle the dataset randomly.
        batch_size(obj:`int`, optional, defaults to 1): The sample number of a mini-batch.
        pad_token_id(obj:`int`, optional, defaults to 0): The pad token index.
    Returns:
        dataloader(obj:`paddle.io.DataLoader`): The dataloader which generates batches.
    """
    if trans_fn:
        dataset = dataset.map(trans_fn, lazy=True)

    shuffle = True if mode == 'train' else False
    sampler = paddle.io.BatchSampler(
        dataset=dataset, batch_size=batch_size, shuffle=shuffle)
    batchify_fn = lambda samples, fn=Tuple(
        Pad(axis=0, pad_val=pad_token_id),  # input_ids
        Stack(dtype="int64")  # label
    ): [data for data in fn(samples)]

    dataloader = paddle.io.DataLoader(
        dataset,
        batch_sampler=sampler,
        return_list=True,
        collate_fn=batchify_fn)
    return dataloader

使用TokenEmbedding詞表構造Tokenizer,

from data import Tokenizer
tokenizer = Tokenizer() # 分詞
tokenizer.set_vocab(vocab=token_embedding.vocab) # 加載字典

相似句對資料讀取

以提供的樣例資料text_pair.txt為例,該資料檔案每行包含兩個句子,

多項式矩陣左共軛積對偶Sylvester共軛和數學算子完備引數解	多項式矩陣的左共軛積及其應用
多項式矩陣左共軛積對偶Sylvester共軛和數學算子完備引數解	退化阻尼對高維可壓縮歐拉方程組經典解的影響
多項式矩陣左共軛積對偶Sylvester共軛和數學算子完備引數解	Burgers方程基于特征正交分解方法的數值解法研究
多項式矩陣左共軛積對偶Sylvester共軛和數學算子完備引數解	有界對稱域上決議函式空間的若干性質
多項式矩陣左共軛積對偶Sylvester共軛和數學算子完備引數解	基于卷積神經網路的影像復雜度研究與應用
多項式矩陣左共軛積對偶Sylvester共軛和數學算子完備引數解	Cartesian發射機中線性功率放大器的研究
多項式矩陣左共軛積對偶Sylvester共軛和數學算子完備引數解	CFRP加固WF型梁側扭屈曲的幾何非線性有限元分析
多項式矩陣左共軛積對偶Sylvester共軛和數學算子完備引數解	基于線性CCD自適應成像的光刻機平臺調平方法研究
多項式矩陣左共軛積對偶Sylvester共軛和數學算子完備引數解	基于變分貝葉斯理論的影像復原方法研究
text_pairs = {}
with open("text_pair.txt", "r", encoding="utf8") as f:
    for line in f:
        text_a, text_b = line.strip().split("\t")
        if text_a not in text_pairs:
            text_pairs[text_a] = []
        text_pairs[text_a].append(text_b)

查看相似陳述句相關度

for text_a, text_b_list in text_pairs.items():
    text_a_ids = paddle.to_tensor([tokenizer.text_to_ids(text_a)])

    for text_b in text_b_list:
        text_b_ids = paddle.to_tensor([tokenizer.text_to_ids(text_b)])
        print("text_a: {}".format(text_a))
        print("text_b: {}".format(text_b))
        print("cosine_sim: {}".format(model.get_cos_sim(text_a_ids, text_b_ids).numpy()[0]))
        print()
text_a: 多項式矩陣左共軛積對偶Sylvester共軛和數學算子完備引數解
text_b: 多項式矩陣的左共軛積及其應用
cosine_sim: 0.8861938714981079

text_a: 多項式矩陣左共軛積對偶Sylvester共軛和數學算子完備引數解
text_b: 退化阻尼對高維可壓縮歐拉方程組經典解的影響
cosine_sim: 0.7975839972496033

text_a: 多項式矩陣左共軛積對偶Sylvester共軛和數學算子完備引數解
text_b: Burgers方程基于特征正交分解方法的數值解法研究
cosine_sim: 0.8188782930374146

使用VisualDL查看句子向量

# 引入VisualDL的LogWriter記錄日志
import numpy as np
from visualdl import LogWriter    
# 獲取句子以及其對應的向量
label_list = []
embedding_list = []

for text_a, text_b_list in text_pairs.items():
    text_a_ids = paddle.to_tensor([tokenizer.text_to_ids(text_a)])
    embedding_list.append(model(text_a_ids).flatten().numpy())
    label_list.append(text_a)

    for text_b in text_b_list:
        text_b_ids = paddle.to_tensor([tokenizer.text_to_ids(text_b)])
        embedding_list.append(model(text_b_ids).flatten().numpy())
        label_list.append(text_b)


with LogWriter(logdir='./sentence_hidi') as writer:
    writer.add_embeddings(tag='test', mat=embedding_list, metadata=https://www.cnblogs.com/vipsoft/p/label_list)

啟動VisualDL觀察句子向量降維效果

步驟如上述觀察詞向量降維效果一模一樣,

可以看出,語意相近的句子在句子向量空間中聚集(如有關課堂的句子、有關化學描述句子等),

源文:https://aistudio.baidu.com/aistudio/course/introduce/24177?sharedLesson=1449880&sharedType=2&sharedUserId=2631487&ts=1685691772342

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/554979.html

標籤:其他

上一篇:云原生周刊:DevOps-resources

下一篇:返回列表

標籤雲
其他(160847) Python(38222) JavaScript(25492) Java(18225) C(15237) 區塊鏈(8270) C#(7972) AI(7469) 爪哇(7425) MySQL(7247) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5874) 数组(5741) R(5409) Linux(5347) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4589) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2435) ASP.NET(2404) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1984) 功能(1967) HtmlCss(1962) Web開發(1951) C++(1933) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1881) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 自然語言處理 Paddle NLP - 詞向量應用展示

    詞向量(Word embedding),即把詞語表示成實數向量。“好”的詞向量能體現詞語直接的相近關系。詞向量已經被證明可以提高NLP任務的性能,例如語法分析和情感分析。 PaddleNLP已預置多個公開的預訓練Embedding,您可以通過使用paddlenlp.embeddings.TokenE ......

    uj5u.com 2023-06-13 07:56:00 more
  • 云原生周刊:DevOps-resources

    推薦一個 GitHub 倉庫 “DevOps-resources”。這個 GitHub 倉庫包含了學習和實踐 DevOps 所需的資源串列。它包括涉及云計算、容器化、微服務、自動化和安全問題的文章、書籍、課程和工具。資源按最佳實踐、代碼基礎設施和安全性等類別進行排序,使得用戶可以更輕松地找到與他們需 ......

    uj5u.com 2023-06-13 07:55:43 more
  • 傳統軟體如何SaaS化改造,10個問答帶你掌握最優解

    摘要:如果您所在企業希望實行SaaS化改造,可訪問了解華為云開發者技術團隊的SaaS支持計劃。 本文分享自華為云社區《【云享問答】第1期:傳統軟體如何SaaS化改造,10個問答帶你掌握最優解!》,作者:技識訓炬手。 如果您所在企業希望實行SaaS化改造,可訪問了解華為云開發者技術團隊的SaaS支持計 ......

    uj5u.com 2023-06-13 07:55:28 more
  • 人民日報:天翼云持續拓展云網基礎設施覆寫廣度和深度

    5月31日,由人民日報文化傳媒有限公司主辦的2023數字經濟論壇在北京舉行,本次論壇主題為“發展數字經濟,共建數字中國”。人民日報社副總編輯徐立京、中國國際經濟交流中心副理事長王一鳴、科學技術部高技術研究發展中心主任張洪剛、工業和資訊化部資訊技術發展司一級巡視員王建偉、中央網信辦資料與技術保障中心主... ......

    uj5u.com 2023-06-13 07:55:06 more
  • KubeSphere 社區雙周報 | OpenFunction 發布 v1.1.0 | 2023.5.26

    KubeSphere 社區雙周報主要整理展示新增的貢獻者名單和證書、新增的講師證書以及兩周內提交過 commit 的貢獻者,并對近期重要的 PR 進行決議,同時還包含了線上/線下活動和布道推廣等一系列社區動態。 本次雙周報涵蓋時間為:2023.05.26-2023.06.08。 ## 貢獻者名單 ! ......

    uj5u.com 2023-06-13 07:54:42 more
  • 【技識訓累】演算法中的回溯演算法【一】

    博客推行版本更新,成果積累制度,已經寫過的博客還會再次更新,不斷地琢磨,高質量高數量都是要追求的,工匠精神是學習必不可少的精神。因此,大家有何建議歡迎在評論區踴躍發言,你們的支持是我最大的動力,你們敢投,我就敢肝 ......

    uj5u.com 2023-06-13 07:54:14 more
  • 升級Debian12不會?,那么用這個腳本就對了

    # 前言 2023 年 6 月 10 日,Debian 正式發布了其最新的穩定本12(代號 bookworm )。作為一名 Linux 的愛好者,怎能不第一時間升級它。 相對于 Debian 11,Debian 12 包含大量更新的軟體包(上一版本中超過 67% 的包)。個人感徑訓是可以升級的,不過 ......

    uj5u.com 2023-06-13 07:53:45 more
  • 源生創新 云享未來|GOTC全球開源技術峰會華為云云原生精彩時刻

    摘要:GOTC 全球開源技術峰會在上海張江科學會堂成功舉辦。 本文分享自華為云社區《源生創新 云享未來|GOTC全球開源技術峰會華為云云原生精彩時刻》,作者:華為云云原生團隊。 GOTC 全球開源技術峰會在上海張江科學會堂成功舉辦。作為面向全球開發者的開源技術盛宴,大會以“Open Source, ......

    uj5u.com 2023-06-13 07:52:53 more
  • Excelize 榮獲 2022 年中國開源創新大賽一等獎

    近日,“2022 年中國開源創新大賽”正式發布了獲獎名單,Excelize 電子表格檔案開源基礎庫榮獲一等獎。 2022年中國開源創新大賽在烏鎮世界互聯網大會上正式啟動,大賽由中央網信辦資訊化發展局指導,中國互聯網發展基金會、中國網路空間研究院、中國互聯網投資基金聯合主辦,北京長風資訊技術產業聯盟承 ......

    uj5u.com 2023-06-13 07:51:16 more
  • 揭秘Spring依賴注入和SpEL運算式

    摘要:在本文中,我們深入探討了Spring框架中的屬性注入技術,包括setter注入、構造器注入、注解式屬性注入,以及使用SpEL運算式進行屬性注入。 本文分享自華為云社區《Spring高手之路3——揭秘Spring依賴注入和SpEL運算式》,作者:磚業洋__ 。 在本文中,我們深入探討了Sprin ......

    uj5u.com 2023-06-13 07:50:20 more