注:此文章內容均節選自充電了么創始人,CEO兼CTO陳敬雷老師的新書《分布式機器學習實戰》(人工智能科學與技術叢書)【陳敬雷編著】【清華大學出版社】
文章目錄
- 自然語言處理系列二十一
- 詞性標注
- 詞性標注原理
- 總結
自然語言處理系列二十一
詞性標注
詞性標注(Part-Of-Speech tagging, POS tagging)也被稱為語法標注(grammatical tagging)或詞類消疑(word-category disambiguation),是語料庫語言學(corpus linguistics)中將語料庫內單詞的詞性按其含義和背景關系內容進行標記的文本資料處理技術,
詞性標注可以由人工或特定演算法完成,使用機器學習(machine learning)方法實作詞性標注是自然語言處理(Natural Language Processing, NLP)的研究內容,常見的詞性標注演算法包括隱馬爾可夫模型(Hidden Markov Model, HMM)、條件隨機場(Conditional random fields, CRFs)等,詞性標注主要被應用于文本挖掘(text mining)和NLP領域,是各類基于文本的機器學習任務,例如語意分析(semantic analysis)和指代消解(coreference resolution)的預處理步驟,下面我們分別從原理和實戰工具給大家詳細講解,
詞性標注原理
所謂詞性標注就是根據句子的背景關系資訊給句中的每個詞確定一個最為合適的詞性標記,比如,給定一個句子:“我中了一張彩票”,對其的標注結果可以是:“我/代詞中/動詞/了/助詞/一/數詞/張/量詞/彩票/名詞,/標點”,
詞性標注的難點主要是由詞性兼類所引起的,詞性兼類是指自然語言中一個詞語的詞性多余一個的語言現象,詞性兼類是自然語言中的普遍現象,例如下面的句子:S1=“他是山西大學的教授,”; S2=“他在山西大學教授計算語言學,”句子S1中,“教授”是一個表示職稱的名詞,而句子S2中“教授”是一個動詞,對人來說,這樣的詞性歧義現象比較容易排除,但是對于沒有先驗知識的機器來說是比較困難的,詞性兼類在漢語中很突出,據不完全統計,常見的詞性兼類現象有幾十種,這些兼類現象具有以下分布特征:l)在漢語詞匯中,兼類詞的數量不多,約占總詞條的5一11%,2)兼類詞的實際使用頻率很高,約占總詞次的40一45%,也就是說,也是常用的詞,其詞性兼類現象越嚴重,3)兼類詞現象分布不均:在孫茂松等的統計中,僅動名兼類就占全部兼類現象的49.8%;在張民門的統計中,動名兼類和形副兼類就占全部113種兼類現象的62.5%,詞性兼類的消歧常采用概率的方法,如隱馬爾科夫模型,這些方法的有效性依賴于兼類詞性的概率分布,但是有些兼類的詞性的概率分布近似,特別是高頻的詞性兼類現象,如漢語的動詞名詞兼類,對于這些兼類現象,傳統的概率方法很難奏效,如何解決這個問題目前詞性標注面臨的主要困難之一,
總結
此文章有對應的配套視頻,其它更多精彩文章請大家下載充電了么app,可獲取千萬免費好課和文章,配套新書教材請看陳敬雷新書:《分布式機器學習實戰》(人工智能科學與技術叢書)
【新書介紹】
《分布式機器學習實戰》(人工智能科學與技術叢書)【陳敬雷編著】【清華大學出版社】
新書特色:深入淺出,逐步講解分布式機器學習的框架及應用配套個性化推薦演算法系統、人臉識別、對話機器人等實戰專案
【新書介紹視頻】
分布式機器學習實戰(人工智能科學與技術叢書)新書【陳敬雷】
視頻特色:重點對新書進行介紹,最新前沿技術熱點剖析,技術職業規劃建議!聽完此課你對人工智能領域將有一個嶄新的技術視野!職業發展也將有更加清晰的認識!
【精品課程】
《分布式機器學習實戰》大資料人工智能AI專家級精品課程
【免費體驗視頻】:
人工智能百萬年薪成長路線/從Python到最新熱點技術
從Python編程零基礎小白入門到人工智能高級實戰系列課
視頻特色: 本系列專家級精品課有對應的配套書籍《分布式機器學習實戰》,精品課和書籍可以互補式學習,彼此相互補充,大大提高了學習效率,本系列課和書籍是以分布式機器學習為主線,并對其依賴的大資料技術做了詳細介紹,之后對目前主流的分布式機器學習框架和演算法進行重點講解,本系列課和書籍側重實戰,最后講幾個工業級的系統實戰專案給大家, 課程核心內容有互聯網公司大資料和人工智能那些事、大資料演算法系統架構、大資料基礎、Python編程、Java編程、Scala編程、Docker容器、Mahout分布式機器學習平臺、Spark分布式機器學習平臺、分布式深度學習框架和神經網路演算法、自然語言處理演算法、工業級完整系統實戰(推薦演算法系統實戰、人臉識別實戰、對話機器人實戰)、就業/面試技巧/職業生涯規劃/職業晉升指導等內容,
【充電了么公司介紹】
充電了么App是專注上班族職業培訓充電學習的在線教育平臺,
專注作業職業技能提升和學習,提高作業效率,帶來經濟效益!今天你充電了么?
充電了么官網
http://www.chongdianleme.com/
充電了么App官網下載地址
https://a.app.qq.com/o/simple.jsp?pkgname=com.charged.app
功能特色如下:
【全行業職位】 - 專注職場上班族職業技能提升
覆寫所有行業和職位,不管你是上班族,高管,還是創業都有你要學習的視頻和文章,其中大資料智能AI、區塊鏈、深度學習是互聯網一線工業級的實戰經驗,
除了專業技能學習,還有通用職場技能,比如企業管理、股權激勵和設計、職業生涯規劃、社交禮儀、溝通技巧、演講技巧、開會技巧、發郵件技巧、作業壓力如何放松、人脈關系等等,全方位提高你的專業水平和整體素質,
【牛人課堂】 - 學習牛人的作業經驗
1.智能個性化引擎:
海量視頻課程,覆寫所有行業、所有職位,通過不同行業職位的技能詞偏好挖掘分析,智能匹配你目前職位最感興趣的技能學習課程,
2.聽課全網搜索
輸入關鍵詞搜索海量視頻課程,應有盡有,總有適合你的課程,
3.聽課播放詳情
視頻播放詳情,除了播放當前視頻,更有相關視頻課程和文章閱讀,對某個技能知識點強化,讓你輕松成為某個領域的資深專家,
【精品閱讀】 - 技能文章興趣閱讀
1.個性化閱讀引擎:
千萬級文章閱讀,覆寫所有行業、所有職位,通過不同行業職位的技能詞偏好挖掘分析,智能匹配你目前職位最感興趣的技能學習文章,
2.閱讀全網搜索
輸入關鍵詞搜索海量文章閱讀,應有盡有,總有你感興趣的技能學習文章,
【機器人老師】 - 個人提升趣味學習
基于搜索引擎和智能深度學習訓練,為您打造更懂你的機器人老師,用自然語言和機器人老師聊天學習,寓教于樂,高效學習,快樂人生,
【精短課程】 - 高效學習知識
海量精短牛人課程,滿足你的時間碎片化學習,快速提高某個技能知識點,
上一篇:自然語言處理系列二十》中文分詞》分詞工具實戰》Java的mmseg4j分詞
下一篇:自然語言處理系列二十二》詞性標注》詞性標注原理》詞性介紹
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/257063.html
標籤:其他
下一篇:2021美賽翻譯D題
