一、自然語言處理的物件:文字(資訊來源:圖象、語音和文字),
二、先修課程:
- 數學分析
- 概率論與數理統計
- 線向代數
- 決議幾何
- 資料結構與演算法基礎
- 編程語言:C/C++、python
- 機器學習基礎
三、自然語言概念
- 自然語言就是人類的語言,如英語、漢語等,
- 與計算機編程語言不同,自然語言溝通方式是:聽說讀寫
- 自然語言的形式是:書面形式和口語形式,今天說的自然語言處理針對的是書面語言的處理,
四、幾個術語與概念:
- 自然語言處理(NLP,Natural Language Processing):通過演算法、統計或常識專門處理語言的各種方法的學科,
- 自然語言理解 (NLU,Natural Language Understanding):對某種自然語言的文本的真正理解,
- 計算語言學(Computational Linguistic):從語言學的角度來分析、處理自然語言,試圖以機器或計算機模擬人的語言能力,目前來看,計算機語言學和自然語言處理方向一致,兩者可以看作同一事物的不同名稱,
五、與其他學科的關系圖如下:

六、自然語言處理的技術挑戰
1. 知識角度(知識人工智能的核心議題)來看,自然語言處理要處理和兩類知識:
-
- 常識知識:自然語言中的物體知識,
- 語言知識:自然語言處理的各類詞性、句法、形式語意,
現代自然語言處理就是一個用語言處理這兩類知識的研究和工程分支學科,
2.相比比計算機編程語言的精確、唯一和無歧義的定義來看,自然語言的形式和語意之間的映射型別有:
-
- 一對一、多對一、一對多或多對多的映射
- 一對多映射需要輸入之外的大量另一的知識才能在目標的形式表示中做出正確選擇,
3. 困難舉例:
-
- 修飾語附著問題(Modifier attachment problem),對于下面句子,到底making you crazy是修飾job還是problems
Show me all problems in your job making you crazy,
-
- 量詞范圍界定問題(Quantifier scoping problem)比如,應英語中each表示通用所有(?)或者(?)所指的范圍有多種不同理解,
- 縮略語或省略句(Elliptical utterances)一個問句的解釋可能取決于先前的問句及其解釋,下面甲問的“在哪?”
例如:甲:明年是不是舉報奧運會?乙:是的,甲:在哪?乙:日本東京
七、機器翻譯的研究歷史
1. 1949年Warren Weaver提出計算機可能對解決世界范圍的翻譯問題有用,70年后,今天翻譯質量仍不盡人意,只是粗略的大義,遠遠不適用于正式場合的檔案產出,這使得人們認識到問題所在,人類語言翻譯是一種復雜的認知和處理能力,涉及到不同型別的知識:
-
- 句子結構
- 詞義
- 聽眾模型(用戶模型)
- 對話規則(對話翻譯)
- 關于世界的廣泛共享資訊
2. 1964年由John R. Pierce發表的ALPAC(Automatic Language Processing Advisory Committee)報告指出,否定短期內對機器翻譯產生有意義影響的可能性,從此,機器翻譯進入了由30年的低谷期,
3.80年代末90年代初,IMB模型的提出開啟統計機器翻譯的統計機器翻譯(SMT)的時代,機器翻譯低谷期開始復蘇,
4.二十世紀初,最小錯誤率訓練(MERT)結合翻譯質量自動得分評估(BLEU)帶動了統計機器翻譯進入全勝時期,特別是2014年谷歌DeepMind提出的NMT(Neural Machine Transaction)神經機器翻譯使得機器翻譯進入了新的時代,
八、語言處理層次
(一)自然語言處理的研究目標:
-
- 開發實用、有效的語言處理和分析系統
- 更好低理解語言和智能的本質
(二)James Allen提出語言分析的層次

1. 形態分析(詞匯分析)Morphological Analysis ,就是指從完整的書寫的詞形式中識別出詞干,詞形式有時也包括詞干的句法類別識別,即詞性分析,例如,英語中單詞cowardly =coward (詞干)+ ly (后綴),ly將名詞變為形容詞,
漢語或者大多數東亞語言中的形態或詞匯分析與英語有所不同,漢語是詞匯間無間隔的句子書寫方式,所以這就要求,從句子(也就是字的序列)中切分出詞,這個處理稱做中文分詞,
大多數自然語言分析系統通常首先需要將文本分割為有語言學意義的符號單元,廣義上來說,這個程序包括分詞(切分)、詞原型提取、詞性標注以及命名物體/短語識別等一大類詞法處理任務,
2. 句法分析(深層、淺層句法分析)(Syntax)
句法和語意是關聯的兩個語言層次的概念,句法有時候也不夠嚴格地被稱為語法或文法(grammer), 嚴格來說,語法 = 句法 + 語意,
句法指定義了句子內部各成分之間的形式化的相對位置關系,通常來說,句法 = 詞典 + 規則,句法分析的目標是給各句子成份分配句法類別標簽,并確定各成份之間的句法關系,
3. 語意分析 Semantic
語意分析的目的是為意義完整的話語(utterances)賦予意義,包括詞義及詞義組合,這是一種與背景關系無關的意義,
背景關系相關的語意分析包括:
-
- 句子層面的語意角色標注任務:給出句子內部的謂詞-論元結構,
- 詞義消歧
- 指代消解
4. 語用分析 Pragmatics
指文本符號或會話與會話生產者/用戶之間的關系,他對不同的情境背景關系背景中,對話語的解釋重大影響,這部分作業困難重重,目前還沒有在此方面取得突破性進展,
5. 篇章分析(文本分析)Discourse 針對文本整體論述結構的分析,同時,還負責分析文本句子之間的關系,
6. 世界知識分析:世界知識是指不受限制的常識知識,這個任務是負責推斷出每個語言用戶必須具備的一般世界知識,例如,用戶在對話中的目的和價值觀,
從詞匯、句法直到世界知識,下一層就是上一層的基礎,當下一層表述不合理時,上一層也無法實作正確表達,
(三)層次分析舉例:
1. Grey elephants have long noses. [ syntax √ sematics √ ]
2. White cloud have long noses. [ syntax √ Sematics × ]
3. Long have white cloud noses. [ Syntax × Sematics × ]
九、自然語言處理系統的兩個應用
從歷史上出現的兩個人機對話系統來看,我們看看自然語言處理是如何用語言知識來應對一般知識的實際應用場景的,
一個是ELIZA【Webizenbaum, 1966】,它 是1966年在麻省理工學院完成的最著名的模式匹配自然語言處理系統,該系統在對話中扮演心理醫生的角色,使用模式匹配的方法進行輸入并把它轉換成適當的輸出,通過下面地址訪問:https://www.masswerk.at/elizabot/
第二個,20世紀70年代,專家系統確立知識是AI核心問題的共識,也是使人們重拾AI信心的標志,LUNAR【William Woods,1973】是通過使用ATN句法分析器和規則驅動的語意解釋程序來將英語輸入的問題翻譯成正式的查詢語言的運算式來進行操作,以幫助地質學家訪問、比較和評估月球巖石上的化學資料和土壤成份,
十、研究主題及主要學術組織和會議
1. 對比ACL 2020和2010的征稿啟事的主題串列,十年中這個主題變化并不是很大, 這與深度學習深度滲透NLP 的情景似乎不符,但也清理之中,這是因為征稿主題是任務串列而非方法,但機器學習,包括深度學習恰恰是方法,
2. 自然語言處理的主要的國際學術組織ACL及其學識訓議
-
- ACL 的全稱如下:
- Annual Meeting of the Association for Computational Linguistics
- the Association for Computational Linguistics
- ACL的在線文獻庫:https://www.aclweb.org/anthology/
- ACL 的全稱如下:
3. 國內的自然語言處理會議
1). 中國計算語言學大會 —— The China National Conference on Computational Linguistics (CCL)
-
- 首屆主辦于1991年
- 中國中文資訊學會(Chinese information processing society, CIPS)
- 計算語言學專委會(Technical committee of computational linguistics)
- 網址:http://www.cips-cl.org/static/CCL2019/index.html
2).自然語言處理與中文計算國際會議 —— The CCF International Conference on Natural Language Processing and Chinese Computing (NLPCC)
-
- 首屆主辦于2012年
- 中國計算機學會(China Computer Federation, CCF)
- 自然語言處理與中文計算專委會(Technical Committee of NLP and Chinese Computation)
- 網址:http://tcci.ccf.org.cn/conference/2019/
相關說明:
授課老師:上海交通大學 趙海老師
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/55449.html
標籤:其他
上一篇:Deep Clustering Algorithms
下一篇:機器學習 - Python 02
