帶你了解NLP的詞嵌入-有解無憂

摘要：今天帶領大家學習自然語言處理中的詞嵌入的內容，

本文分享自華為云社區《【MindSpore易點通】深度學習系列-詞嵌入》，作者：Skytier，

1 特征表示

在自然語言處理中，有一個很關鍵的概念是詞嵌入，這是語言表示的一種方式，可以讓演算法自動的理解一些同類別的詞，比如蘋果、橘子，比如襪子、手套，

one-hot向量

比如我們通常會說：“I want a glass of orange juice.”但如果演算法并不知道apple和orange的類似性（這兩個one-hot向量的內積是0），那么當其遇到“I want a glass of apple __”時，并不知道這里也應該填寫 juice，

如果用特征化的表示來表示庫里的每個詞，學習它們的特征或者數值，

這樣我們就可以選用t-SNE演算法來對特征向量可視化，通過觀察這種詞嵌入的表示方法，最終同類別的單詞會聚集在一塊，詞嵌入演算法對于相近的概念，學到的特征也比較類似，

2 詞嵌入的使用

參考案例——句中找人名：Jack Li is a teacher.

使用詞嵌入作為輸入訓練好的模型，如果看到一個新的輸入：“Jack Li is a farmer.”因為知道teacher和farmer很相近，那么演算法很容易就知道Jack Li是一個人的名字，同時，如果遇到不太常見的單詞，比如：Jack Li is a cultivator.（假設訓練集里沒有cultivator這個單詞），但是詞嵌入的演算法通過考察大量的無標簽文本，會發現farmer、teacher、cultivator相近，把它們都聚集在一塊，這樣一來即使只有一個很小的訓練集，但是使用遷移學習，把從大量的無標簽文本中學習到的知識遷移到一個任務中——比如少量標記的訓練資料集的命名物體識別任務，

如何用詞嵌入做遷移學習的步驟：

1.先從大量的文本集中學習詞嵌入，

2.用這些詞嵌入模型把它遷移到新的只有少量標注訓練集的任務中，比如說用300維的詞嵌入來表示單詞，這樣就可以用更低維度的特征向量代替原來的10000維的one-hot向量，

3.當在新的任務上訓練模型時，只有少量的標記資料集，可以選擇不進行微調，而是用新的資料調整詞嵌入，

當你的任務的訓練集相對較小時，詞嵌入的作用最明顯，所以它廣泛用于NLP領域，但是其對于一些語言模型和機器翻譯并不適用，