按研究物件:
形式
語意
推理
語用分析
理性主義/經驗主義
經驗主義:基于統計模型/深度學習模型/最新的預訓練模型的三個階段
“新范式”:預訓練+精調
1.1 自然語言處理的概念
自然語言通常指的是人類語言(本文特指文本符號,而非語音信號),是人類思維的載體和交流的基本工具,也是人類區別于動物的根本標志,更是人類智能發展的外在體現形式之一,
NLP:理解,生成
計算語言學,Computational Linguistics,CL
人工智能:
運算智能--機器的基礎運算,存盤能力
感知智能--機器的模式識別能力,如語音的識別以及影像的識別
認知智能
1.2 自然語言處理的難點
1.抽象性
語言是由抽象符號構成的,
2.組合性
有限的符號組合成無限的語意
無法使用窮舉法實作對自然語言的理解,
3.歧義性
一詞多義
4.進化性
新詞匯,舊詞匯新含義
5.非規范性
為森么,腫么了,pls,cooooool
6.主觀性
標注資料難,難以評價
如何自動評價人機對話系統仍然是一個開放的問題,
7.知識性
理解語言通常需要背景知識以及基于這些知識的推理能力
8.難移植性
不同領域的用詞以及表達方式不盡相同,因此在一個領域上學習的模型也很難應用于其他領域,
自然語言處理任務不同,很難使用統一的技識訓模型加以解決,
1.3 自然語言處理任務體系
按任務層級:
1.資源建設:語言學知識庫建設,語料庫資源建設
2.基礎任務:分詞,詞性標注,句法分析,句義分析等
3.應用任務:資訊抽取/情感分析/問答系統/機器翻譯/對話系統等
4.應用系統:教育/醫療/司法/金融/機器人等,
按任務類別:
回歸問題:將輸入文本映射為一個連續的數值,如對作文的打分,對案件刑期或罰款金額的預測等,
分類問題:文本分類,即判斷一個輸入的文本所屬的類別,
匹配問題:判斷兩個輸入文本之間的關系,如:它們之間是復述或非復述的兩類關系,或蘊含/矛盾/無關三類關系,
決議問題:對文本中的詞語進行標注或識別詞語之間的關系,典型的決議問題包括詞性標注/句法分析等,另外還有很多問題,如分詞/命名物體識別,
生成問題:根據輸入(可以是文本,也可以是圖片/表格等其他型別資料)生成一段自然語言,如機器翻譯/文本摘要/影像描述生成等都是典型的文本生成類任務,
研究物件與層次

自然語言處理的研究層次:
形式:語言符號層面的處理,研究的是“名”與“名”之間的關系,如通過編輯距離等計算文本之間的相似度,
語意:主要研究語言符號和其背后所要表達的含義之間的關系,即“名”和“實”之間的關系,(NLP主要關注的問題)
推理:在語意研究的基礎上,進一步引入知識的運用,因此涉及“名”,“實”和“知”之間的關系,這一點正體現了自然語言的知識性,
語用: “言外之意”“弦外之音”,“名”,“實”,“知”和“境”,
1.4 自然語言處理技術的發展歷史

基于統計學習的自然語言處理取得了一定程度的成功,但它也有明顯的局限性,也就是需要事先利用經驗性規則將原始的自然語言輸入轉化為機器能夠處理的向量形式,這一轉化程序(也稱為特征提取)需要細致的人工操作和一定的專業知識,因此也被稱為特征工程,
2010年以后,深度學習,表示學習,指機器能根據輸入自動地發現可以用于識別或分類等任務等表示,
多層的處理層,抽象處理,更深層次的抽象,輸入的一個表示,
反向傳播演算法
可以有效地避免統計學習方法中的人工特征提取操作,自動地發現對于目標任務有效的表示,
表示學習,打通了不同任務之間的壁壘,跨任務遷移,
表示學習能夠將不同任務在相同的向量空間內進行表示,
跨模態遷移,綜合利用多項任務/多種語言/多個模態的資料,使得人工智能向更通用的方向邁進了一步,
自然語言生成:深度學習,序列到序列生成框架,逐詞的文本生成方法:機器翻譯/文本摘要/人機對話
深度學習演算法致命缺點:過度依賴大規模有標注資料
早期的靜態詞向量預訓練模型,動態詞向量預訓練模型,2018,BERT/GPT為代表的超大規模預訓練語言模型恰好彌補了自然語言處理標注資料不足的缺點,幫助自然語言處理取得了一系列的突破,
模型預訓練(Pre-train),即首先在一個愿任務上預先訓練一個初始模型,然后在下游模型(也稱為目標任務)上繼續對該模型進行精調(Fine-tune),從而達到提高下游任務準確率的目的,
在本質上,這也是遷移學習(Transfer Learning)思想的一種應用,
文本自身的順序就是一種天然的標注資料,通過若干連續出現的詞語預測下一個詞語(又稱語言模型)就可以構成一項原任務,由于圖書/網頁等文本資料規模近乎無限,所以,可以非常容易地獲得超大規模的預訓練資料,---自監督學習,
基于自注意力的Transformer模型顯著地提升了對于自然語言的建模能力,是近年來具有里程碑意義的進展之一,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/335400.html
標籤:AI
