13.深度學習(詞嵌入)與自然語言處理--HanLP實作-有解無憂

筆記轉載于GitHub專案：https://github.com/NLP-LOVE/Introduction-NLP

13. 深度學習與自然語言處理

13.1 傳統方法的局限

前面已經講過了隱馬爾可夫模型、感知機、條件隨機場、樸素貝葉斯模型、支持向量機等傳統機器學習模型，同時，為了將這些機器學習模型應用于 NLP，我們掌握了特征模板、TF-IDF、詞袋向量等特征提取方法，而這些方法的局限性表現為如下:

資料稀疏

首先，傳統的機器學習方法不善于處理資料稀疏問題，這在自然語言處理領域顯得尤為突出，語言是離散的符號系統，每個字符、單詞都是離散型隨機變數，我們通常使用獨熱向量(one-hot)來將文本轉化為向量表示，指的是只有一個元素為1，其他元素全部為 0 的二進制向量，例如:

祖國特征: ["中國","美國","法國"] (這里 N=3)

中國 => 100

美國 => 010

法國 => 001

上面的祖國特征只有 3 個還好，那如果是成千上萬個呢？就會有很多的 0 出現，表現為資料的稀疏性，
特征模板

語言具有高度的復合型，對于中文而言，偏旁部首構成漢字，漢字構成單詞，單詞構成短語，短語構成句子，句子構成段落，段落構成文章，隨著層級的遞進與顆粒度的增大，所表達的含義越來越復雜，

這樣的特征模板同樣帶來資料稀疏的困擾: 一個特定單詞很常見，但兩個單詞的特定組合則很少見，三個單詞更是如此，許多特征在訓練集中僅僅出現一次，僅僅出現一次的特征在統計學上毫無意義，
誤差傳播

現實世界中的專案，往往涉及多個自然語言處理模塊的組合，比如在情感分析中，需要先進行分詞，然后進行詞性標注，根據詞性標注過濾掉一些不重要的詞，最后送入到樸素貝葉斯或者支持向量機等機器學習模塊進行分類預測，

這種流水線式的作業方式存在嚴重的誤差傳播問題，亦即前一個模塊產生的錯誤被輸入到下一個模塊中產生更大的錯誤，最終導致了整個系統的脆弱性，

13.2 深度學習與優勢

為了解決傳統機器學習與自然語言處理中的資料稀疏、人工特征模板和誤差傳播等問題，人們將注意力轉向了另一種機器學習潮流的研究--深度學習，

深度學習

深度學習(Deep Leaming, DL )屬于表示學習( Representation Learning )的范疇，指的是利用具有一定“深度”的模型來自動學習事物的向量表示(vectorial rpresenation)的一種學習范式，目前，深度學習所采用的模型主要是層數在一層以上的神經網路，如果說在傳統機器學習中，事物的向量表示是利用手工特征模板來提取稀疏的二進制向量的話，那么在深度學習中，特征模板被多層感知機替代，而一旦問題被表達為向量，接下來的分類器一樣可以使用單層感知機等模型，此刻深度學習與傳統手法毫無二致，殊途同歸，所以說深度學習并不神秘，通過多層感知機提取向量才是深度學習的精髓，

對于深度學習原理，在之前我的博客中已經介紹了，詳細請點擊:

http://mantchs.com/2019/08/04/DL/Neural%20Network/
用稠密向量解決資料稀疏

神經網路的輸出為樣本 x 的一個特征向量 h，由于我們可以自由控制神經網路隱藏層的大小，所以在隱藏層得到的 h 的長度也可以控制，即便輸人層是詞表大小的獨熱向量、維度高達數十萬，隱藏層得到的特征向量依然可以控制在很小的體積，比如100維，

這樣的 100 維向量是對詞語乃至其他樣本的抽象表示，含有高度濃縮的資訊，正因為這些向量位于同一個低維空間，我們可以很輕松地訓練分類器去學習單詞與單詞、檔案與檔案、圖片與圖片之間的相似度，甚至可以訓練分類器來學習圖片與檔案之間的相似度，由表示學習帶來的這一切，都是傳統機器學習方法難以實作的，
用多層網路自動提取特征表示

神經網路兩層之間一般全部連接(全連接層),并不需要人們根據具體問題具體設計連接方式，這些隱藏層會根據損失函式的梯度自動調整多層感知機的權重矩陣，從而自動學習到隱陬層的特征表示，

該程序完全不需要人工干預，也就是說深度學習從理論上剝奪了特征模板的用武之地，
端到端的設計

由于神經網路各層之間、各個神經網路之間的“交流語言”為向量，所以深度學習工程師可以輕松地將多個神經網路組合起來，形成一種端到端的設計，比如之前談到的情感分析案例中，一種最簡單的方案是將檔案的每個字符的獨熱向量按順序輸入到神經網路中，得到整個檔案的特征向量，然后將該特征向量輸入到多項邏輯斯諦回歸分類器中，就可以分類出檔案的情感極性了，

整個程序既不需要中文分詞，也不需要停用詞過濾，因為神經網路按照字符順序模擬了人類閱讀整篇文章的程序，已經獲取到了全部的輸人，

13.3 word2vec

作為連接傳統機器學習與深度學習的橋梁，詞向量一直是入門深度學習的第一站，詞向量的訓練方法有很多種，word2vec 是其中最著名的一種，還有 fastText、Glove、BERT和最近很流行的 XLNet 等，

word2vec 的原理在我博客里已經講解過了，詳細介紹見:

http://mantchs.com/2019/08/22/NLP/Word%20Embeddings/

訓練詞向量

了解了詞向量的基本原理之后，本節介紹如何呼叫 HanLP 中實作的詞向量模塊，該模塊接受的訓練語料格式為以空格分詞的純文本格式，此處以 MSR 語料庫為例，訓練代碼如下(自動下載語料庫):

from pyhanlp import *
import zipfile
import os
from pyhanlp.static import download, remove_file, HANLP_DATA_PATH

def test_data_path():
    """
    獲取測驗資料路徑，位于$root/data/test，根目錄由組態檔指定，
    :return:
    """
    data_path = os.path.join(HANLP_DATA_PATH, 'test')
    if not os.path.isdir(data_path):
        os.mkdir(data_path)
    return data_path



## 驗證是否存在語料庫，如果沒有自動下載
def ensure_data(data_name, data_url):
    root_path = test_data_path()
    dest_path = os.path.join(root_path, data_name)
    if os.path.exists(dest_path):
        return dest_path
    
    if data_url.endswith('.zip'):
        dest_path += '.zip'
    download(data_url, dest_path)
    if data_url.endswith('.zip'):
        with zipfile.ZipFile(dest_path, "r") as archive:
            archive.extractall(root_path)
        remove_file(dest_path)
        dest_path = dest_path[:-len('.zip')]
    return dest_path


sighan05 = ensure_data('icwb2-data', 'http://sighan.cs.uchicago.edu/bakeoff2005/data/icwb2-data.zip')
msr_train = os.path.join(sighan05, 'training', 'msr_training.utf8')
## ===============================================
## 以下開始 word2vec


IOUtil = JClass('com.hankcs.hanlp.corpus.io.IOUtil')
DocVectorModel = JClass('com.hankcs.hanlp.mining.word2vec.DocVectorModel')
Word2VecTrainer = JClass('com.hankcs.hanlp.mining.word2vec.Word2VecTrainer')
WordVectorModel = JClass('com.hankcs.hanlp.mining.word2vec.WordVectorModel')

# 演示詞向量的訓練與應用
TRAIN_FILE_NAME = msr_train
MODEL_FILE_NAME = os.path.join(test_data_path(), "word2vec.txt")

def train_or_load_model():
    if not IOUtil.isFileExisted(MODEL_FILE_NAME):
        if not IOUtil.isFileExisted(TRAIN_FILE_NAME):
            raise RuntimeError("語料不存在，請閱讀檔案了解語料獲取與格式：https://github.com/hankcs/HanLP/wiki/word2vec")
        trainerBuilder = Word2VecTrainer();
        return trainerBuilder.train(TRAIN_FILE_NAME, MODEL_FILE_NAME)
    return load_model()


def load_model():
    return WordVectorModel(MODEL_FILE_NAME)


wordVectorModel = train_or_load_model()  # 呼叫函式訓練 word2vec

單詞語意相似度

有了詞向量之后，最基本的應用就是查找與給定單詞意義最相近的前 N 個單詞，

# 列印 單詞語意相似度
def print_nearest(word, model):
    print(
        "\n                                                Word     "
        "Cosine\n------------------------------------------------------------------------")
    for entry in model.nearest(word):
        print("%50s\t\t%f" % (entry.getKey(), entry.getValue()))

print_nearest("上海", wordVectorModel)
print_nearest("美麗", wordVectorModel)
print_nearest("購買", wordVectorModel)
print(wordVectorModel.similarity("上海", "廣州"))

結果如下:

                                                Word     Cosine
------------------------------------------------------------------------
                                                廣州		0.616240
                                                天津		0.564681
                                                西安		0.500929
                                                撫順		0.456107
                                                深圳		0.454190
                                                浙江		0.446069
                                                杭州		0.434974
                                                江蘇		0.429291
                                                廣東		0.407300
                                                南京		0.404509

                                                Word     Cosine
------------------------------------------------------------------------
                                                裝點		0.652887
                                                迷人		0.648911
                                                恬靜		0.634712
                                                絢麗		0.634530
                                                憧憬		0.616118
                                                蔥翠		0.612149
                                                寧靜		0.599068
                                                清新		0.592581
                                                純真		0.589360
                                                景色		0.585169

                                                Word     Cosine
------------------------------------------------------------------------
                                                 購		0.521070
                                                購得		0.500480
                                                選購		0.483097
                                                購置		0.480335
                                                采購		0.469803
                                                出售		0.469185
                                               低收入		0.461131
                                              分期付款		0.458573
                                                代銷		0.456689
                                                高價		0.456320
0.6162400245666504

其中 Cosine 一欄即為兩個單詞之間的余弦相似度，是一個介于 -1 和 1 之間的值，

詞語類比

將兩個詞語的詞向量相減，會產生一個新向量，通過與該向量做點積，可以得出一個單詞與這兩個單詞的差值之間的相似度，在英文中，一個常見的例子是 king - man + woman = queen，也就是說詞向量的某些維度可能保存著當前詞語與皇室的關聯程度，另一些維度可能保存著性別資訊，


# param A: 做加法的詞語
# param B：做減法的詞語
# param C：做加法的詞語
# return：與(A-B+C) 語意距離最近的詞語及其相似度串列
print(wordVectorModel.analogy("日本", "自民黨", "共和黨"))

結果如下:

[美國=0.71801066, 德米雷爾=0.6803682, 美國國會=0.65392816, 布什=0.6503047, 華爾街日報=0.62903535, 國務卿=0.6280117, 輿論界=0.6277531, 白宮=0.6175594, 駁斥=0.6155998, 最惠國待遇=0.6062231]

短文本相似度

我們將短文本中的所有詞向量求平均，就能將這段短文本表達為一個稠密向量，于是我們就可以衡量任意兩端短文本之間鵝相似度了，

#  檔案向量
docVectorModel = DocVectorModel(wordVectorModel)
documents = ["山東蘋果豐收",
             "農民在江蘇種水稻",
             "奧運會女排奪冠",
             "世界錦標賽勝出",
             "中國足球失敗", ]
print(docVectorModel.similarity("山東蘋果豐收", "農民在江蘇種水稻"))
print(docVectorModel.similarity("山東蘋果豐收", "世界錦標賽勝出"))
print(docVectorModel.similarity(documents[0], documents[1]))
print(docVectorModel.similarity(documents[0], documents[4]))

結果如下:

0.6743720769882202
0.018603254109621048
0.6743720769882202
-0.11777809262275696

類似的，可以通過呼叫 nearest 介面查詢與給定單詞最相似的檔案

def print_nearest_document(document, documents, model):
    print_header(document)
    for entry in model.nearest(document):
        print("%50s\t\t%f" % (documents[entry.getKey()], entry.getValue()))


def print_header(query):
    print(
        "\n%50s          Cosine\n------------------------------------------------------------------------" % (query))


for i, d in enumerate(documents):
    docVectorModel.addDocument(i, documents[i])
    
print_nearest_document("體育", documents, docVectorModel)
print_nearest_document("農業", documents, docVectorModel)
print_nearest_document("我要看比賽", documents, docVectorModel)
print_nearest_document("要不做飯吧", documents, docVectorModel)

結果如下:

                                               體育          Cosine
------------------------------------------------------------------------
                                           世界錦標賽勝出		0.256444
                                           奧運會女排奪冠		0.206812
                                            中國足球失敗		0.165934
                                            山東蘋果豐收		-0.037693
                                          農民在江蘇種水稻		-0.047260

                                                農業          Cosine
------------------------------------------------------------------------
                                          農民在江蘇種水稻		0.393115
                                            山東蘋果豐收		0.259620
                                            中國足球失敗		-0.008700
                                           世界錦標賽勝出		-0.063113
                                           奧運會女排奪冠		-0.137968

                                             我要看比賽          Cosine
------------------------------------------------------------------------
                                           奧運會女排奪冠		0.531833
                                           世界錦標賽勝出		0.357246
                                            中國足球失敗		0.268507
                                            山東蘋果豐收		0.000207
                                          農民在江蘇種水稻		-0.022467

                                             要不做飯吧          Cosine
------------------------------------------------------------------------
                                          農民在江蘇種水稻		0.232754
                                            山東蘋果豐收		0.199197
                                           奧運會女排奪冠		-0.166378
                                           世界錦標賽勝出		-0.179484
                                            中國足球失敗		-0.229308

13.4 基于神經網路的高性能依存句法分析器

Arc-Standard轉移系統

不同之前介紹的 Arc-Eager，該依存句法器基于 Arc-Standard 轉移系統，具體動作如下:

動作名稱	條件	解釋
Shift	佇列 β 非空	將隊首單詞 i 壓堆疊
LeftArc	堆疊頂第二個單詞	將堆疊頂第二個單詞 i 的支配詞設為堆疊頂單詞 j，即 i 作為 j 的子節點
RightArc		將堆疊頂單詞 j 的支配詞設為堆疊頂第二個單詞 i，即 j作為 i 的子節點

兩個轉移系統的邏輯不同，Arc-Eager 自頂而下地構建，而 Arc-Standard 要求右子樹自底而上地構建，雖然兩者的復雜度都是 O(n)，然而可能由于 Arc-Standard 的簡潔性(轉移動作更少)，它更受歡迎，

特征提取

雖然神經網路理論上可以自動提取特征，然而這篇論文作為開山之作，依然未能脫離特征模板，所有的特征分為三大類，即:
- 單詞特征，
- 詞性特征，
- 已經確定的子樹中的依存標簽特征，
接著，句法分析器對當前的狀態提取上述三大類特征，分別記作 w、t 和 l，不同于傳統方法，此處為每個特征分配一個向量，于是得到三個稠密向量 Xw、Xt 和 Xl，接著，將這三個向量拼接起來輸人到含有一個隱藏層的神經網路，并且使用立方函式激活，亦即得到隱藏層的特征向量:

\[h=\left(W_{1}\left(x^{w} \oplus x^{t} \oplus x^{l}\right)\right)^{3} \]
接著，對于 k 種標簽而言，Arc-Standard 一共存在 2k +1 種可能的轉移動作，此時只需將特征向量 h 輸人到多元邏輯斯諦回歸分類器(可以看作神經網路中的輸出層)中即可得到轉移動作的概率分布:

\[p=softmax\left(W_{2} h\right) \]
最后選取 p 中最大概率所對應的轉移動作并執行即可，訓練時，采用 softmax 交叉熵損失函式并且以隨機梯度下降法優化，

實作代碼

from pyhanlp import *

CoNLLSentence = JClass('com.hankcs.hanlp.corpus.dependency.CoNll.CoNLLSentence')
CoNLLWord = JClass('com.hankcs.hanlp.corpus.dependency.CoNll.CoNLLWord')
IDependencyParser = JClass('com.hankcs.hanlp.dependency.IDependencyParser')
NeuralNetworkDependencyParser = JClass('com.hankcs.hanlp.dependency.nnparser.NeuralNetworkDependencyParser')


parser = NeuralNetworkDependencyParser()
sentence = parser.parse("徐先生還具體幫助他確定了把畫雄鷹、松鼠和麻雀作為主攻目標，")
print(sentence)
for word in sentence.iterator():  # 通過dir()可以查看sentence的方法
    print("%s --(%s)--> %s" % (word.LEMMA, word.DEPREL, word.HEAD.LEMMA))
print()

# 也可以直接拿到陣列，任意順序或逆序遍歷
word_array = sentence.getWordArray()
for word in word_array:
    print("%s --(%s)--> %s" % (word.LEMMA, word.DEPREL, word.HEAD.LEMMA))
print()

# 還可以直接遍歷子樹，從某棵子樹的某個節點一路遍歷到虛根
CoNLLWord = JClass("com.hankcs.hanlp.corpus.dependency.CoNll.CoNLLWord")
head = word_array[12]
while head.HEAD:
    head = head.HEAD
    if (head == CoNLLWord.ROOT):
        print(head.LEMMA)
    else:
        print("%s --(%s)--> " % (head.LEMMA, head.DEPREL))

依存關系詳細見 Chinese Dependency Treebank 1.0 的定義，

13.5 結語

自然語言處理是一門日新月異的學科，在深度學習的時代更是如此，在學術界，即便是當前最先進的研究，在僅僅兩個月后很快就會被突破，本系列文章所提供的知識只不過是那些入門級的基礎知識而已，
神經網路中兩個常用的特征提取器: 用于時序資料的遞回神經網路 RNN 以及用于空間資料的卷積神經網路 CNN，其中，RNN 在自然語言處理領域應用得最為廣泛，RNN 可以處理變長的輸入，這正好適用于文本，特別是 RNN 家族中的 LSTM 網路，可以記憶大約 200 左右的單詞，為建模句子中單詞之間的長距離依存創造了條件，然而，RNN 的缺陷在于難以并行化，如果需要捕捉文本中的 n 元語法的話，CNN 反而更勝一籌，并且在并行化方面具備天然優勢，考慮到檔案一般較長，許多檔案分類模型都使用 CNN 來構建，而句子相對較短，所以在句子顆粒度上進行的基礎 NLP 任務(中文分詞、詞性標注、命名物體識別和句法分析等)經常采用 RNN 來實作，
- RNN 原理詳見:
  
  http://mantchs.com/2019/08/15/DL/RNN/
- CNN 原理詳見:
  
  http://mantchs.com/2019/08/11/DL/CNN/
- LSTM 原理詳見:
  
  http://mantchs.com/2019/08/17/DL/LSTM/
在詞嵌入的預訓練方面，word2vec 早已是明榷訓花，Facebook 通過將詞語內部的構詞資訊引人 Skip-Gram 模型，得到的 fastText 可以為任意詞語構造詞向量，而不要求該詞語一定得出現在語料庫中，但是，無論是 word2vec 還是 fastText，都無法解決一詞多義的問題，因為多義詞的消歧必須根據給定句子的背景關系才能進行，這催生了一系列能夠感知背景關系的詞語表示方法，

其中，華盛頓大學提出了 ELMO，即一個在大規模純文本上訓練的雙向 LSTM 語言模型，ELMo 通過讀人上文來預測當前單詞的方式為詞嵌人引入了背景關系資訊，Zalando Research 的研究人員則將這一方法應用到了字符級別，得到了背景關系字串嵌入，其標注器取得了目前最先進的準確率，而 Google 的 BERT 模型則通過一種高效的雙向Transformer網路同時對上文和下文建模，在許多NLP任務上取得了驚人的成績，
- fastText 原理詳見:
  
  http://mantchs.com/2019/08/23/NLP/fastText/
- ELMO 原理詳見:
  
  http://mantchs.com/2019/09/28/NLP/BERT/
- BERT 原理詳見:
  
  http://mantchs.com/2019/09/28/NLP/BERT/
另一些以前認為很難的 NLP 任務，比如自動問答和檔案摘要等，在深度學習時代反而顯得非常簡單，許多 QA 任務歸結為衡量問題和備選答案之間的文本相似度，這恰好是具備注意力機制的神經網路所擅長的，而檔案摘要涉及的文本生成技術，又恰好是 RNN 語言模型所擅長的，在機器翻譯領域，Google 早已利用基于神經網路的機器翻譯技術淘汰了基于短語的機器翻譯技術，目前，學術界的流行趨勢是利用 Transformer 和注意力機制提取特征，
- Transformer 原理詳見:
  
  http://mantchs.com/2019/09/26/NLP/Transformer/
- 注意力機制原理詳見:
  
  http://mantchs.com/2019/08/31/NLP/Attention/

總之，自然語言處理的未來圖景宏偉而廣闊，自然語言處理入門系列文章就作為這條漫漫長路上的一塊墊腳石，希望給予讀者一些必備的入門概念，至于接下來的修行，前路漫漫，與君共勉，

13.6 GitHub

HanLP何晗--《自然語言處理入門》筆記：

https://github.com/NLP-LOVE/Introduction-NLP

章節
第 1 章：新手上路
第 2 章：詞典分詞
第 3 章：二元語法與中文分詞
第 4 章：隱馬爾可夫模型與序列標注
第 5 章：感知機分類與序列標注
第 6 章：條件隨機場與序列標注
第 7 章：詞性標注
第 8 章：命名物體識別
第 9 章：資訊抽取
第 10 章：文本聚類
第 11 章：文本分類
第 12 章：依存句法分析
第 13 章：深度學習與自然語言處理

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/49881.html

標籤：其他

上一篇：《自然語言處理入門》12.依存句法分析--提取用戶評論

下一篇：關于office word的批量圖片及其圖片名插入并且排序的問題