“最近剛好在用ERNIE寫畢業論文”
“感徑訓挺厲害的”
“為什么叫ERNIE啊,這名字有什么深意嗎?”
“我想讓艾尼幫我寫作業”
看了上面火熱的討論,你一定很好奇“艾尼”、“ERNIE”到底是個啥?
自然語言處理( Natural Language Processing,簡稱NLP )被譽為人工智能“皇冠上的明珠”,NLP為各類企業及開發者提供用于文本分析及挖掘的核心工具,已經廣泛應用在電商、文化娛樂、金融、物流等行業客戶的多項業務中,
而艾尼(ERNIE),可謂是目前NLP領域的最強中文預訓練模型,
9月5日,百度資深研發工程師龍老師,就通過直播帶開發者走近最強中文NLP預訓練模型ERNIE,在線上解讀了一系列艾尼ERNIE的強大特性,并現場與同為NLP模型的BERT直接PK,讓開發者連連感嘆,希望能把ERNIE運用到自己的作業與生活之中,
錯過了直播沒關系,讓我們來回顧一下課上都講了什么~
什么是艾尼(ERINE)?
艾尼(ERNIE)是百度自研的持續學習語意理解框架,該框架支持增量引入詞匯(lexical)、語法 (syntactic) 、語意(semantic)等3個層次的自定義預訓練任務,能夠全面捕捉訓練語料中的詞法、語法、語意等潛在資訊,
這些任務通過多任務學習對模型進行訓練更新,每當引入新任務時,該框架可在學習該任務的同時,不遺忘之前學到過的知識,這也意味著,該框架可以通過持續構建不同的預訓練任務,持續提升模型效果,因此ERNIE具有了更好的語意理解能力,

ERNIE 2.0持續學習語意理解框架
ERNIE好用么?
好不好用,擺事實才知道,
直播環節中,龍老師直接用填空題的形式展示了ERNIE與BERT在填空方面的表現,
例如題目:中國歷史上唯一的正統女皇帝是[?][?][?],下面是直播中兩種演算法的表現:

ERNIE的結果是“武則天”,而BERT的結果是“宋太帝”,ERNIE能輸出“武則天”說明它確實能學到“武則天”與“女皇帝”之間的關聯,
而BERT輸出的“宋太帝”雖然每個字“宋”、“太”、“帝”都與“皇帝”相關,但是連在一起就不是一個完整的詞,而且也不能與“女皇帝”的形成照應,
再如,陳曉的妻子是[?][?][?]

ERNIE用答案向我們證明了自己不只懂百科,也懂八卦,
通過上面的DEMO測驗,我們也就引出了這樣一個問題:
ERNIE和BERT最大的區別是什么?
ERNIE1.0能夠充分學習詞語、短語、命名物體識別中字與字之間的關系,將其整體進行掩碼,而BERT不具備這樣的能力,ERNIE2.0則通過持續構造輔助任務讓ERNIE進行學習,會的任務越多能力越強大,
這與BERT只靠一兩個任務進行預訓練的思路是完全不同的,就像小學生做題,一直只練一種題型肯定是不行的,需要多種題型都會做,既要有專項突破也要有綜合練習,這樣才能成為真正的學霸,
隨著多樣的訓練資料的增加,ERNIE通過持續學習就能夠學得越來越好,
ERNIE作為模型,也需要與深度學習框架深度配合,才能實作最佳的效果,百度開源的深度學習框架飛槳(PaddlePaddle)對ERNIE模型有非常好的定制優化,使得其加速比達到77%,可以說是ERNIE背后的神助攻,
ERNIE借助飛槳PaddlePaddle多機分布式訓練優勢,利用79億tokens訓練資料(約1/4的XLNet 資料)和64張V100(約1/8的XLNet 硬體算力)訓練的ERNIE 2.0預訓練模型不僅實作了在中英文16個任務上的最優效果,而且為開發人員定制自己的NLP 模型提供了方案,
目前,百度開源了ERNIE 2.0的Fine-tuning代碼和英文預訓練模型,
本次基于艾尼ERNIE的直播,同步在愛奇藝、IT大咖說、BiliBili、虎牙、斗魚五個平臺同步直播,收到了近3W開發者的關注與討論,
直播回放視頻已經上線,歡迎大家繼續學習~
回顧ERNIE的原理、優勢以及案例,請戳回放視頻:
http://play.itdks.com/watch/8591895
在11月,ERNIE的線下培訓課程也會在上海、成都等地分別落地,歡迎關注“百度NLP”公眾號,關注最新報名資訊~
劃重點!
查看ERNIE模型使用的完整內容和教程,請點擊下方鏈接,建議點擊Star收藏到個人主頁,方便后續查看,
GitHub:https://github.com/PaddlePaddle/ERNIE

版本迭代、最新進展都會在GitHub第一時間發布,歡迎持續關注!
也邀請大家加入ERNIE官方技術交流QQ群:760439550,可在群內交流技術問題,會有ERNIE的研發同學為大家及時答疑解惑,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/63760.html
標籤:其他
