2019年3月,百度正式發布NLP模型ERNIE,其在中文任務中全面超越BERT一度引發業界廣泛關注和探討,
今天,經過短短幾個月時間,百度ERNIE再升級,發布持續學習的語意理解框架ERNIE 2.0,及基于此框架的ERNIE 2.0預訓練模型,繼1.0后,ERNIE英文任務方面取得全新突破,在共計16個中英文任務上超越了BERT和XLNet,取得了SOTA效果,
目前,百度ERNIE 2.0的Fine-tuning代碼和英文預訓練模型已開源,(Github 專案地址:https://github.com/PaddlePaddle/ERNIE)
近兩年,以BERT、XLNet為代表的無監督預訓練技術在語言推斷、語意相似度、命名物體識別、情感分析等多個自然語言處理任務上取得了技術突破,基于大規模資料的無監督預訓練技術在自然語言處理領域變得至關重要,
百度發現,之前的作業主要通過詞或句子的共現信號,構建語言模型任務進行模型預訓練,例如,BERT通過掩碼語言模型和下一句預測任務進行預訓練,XLNet構建了全排列的語言模型,并通過自回歸的方式進行預訓練,
然而,除了語言共現資訊之外,語料中還包含詞法、語法、語意等更多有價值的資訊,例如,人名、地名、機構名等詞語概念知識,句子間順序和距離關系等結構知識,文本語意相似度和語言邏輯關系等語意知識,設想如果能持續地學習各類任務,模型的效果能否進一步提升?
ERNIE 2.0:持續學習語意理解框架
基于此,百度提出持續學習語意理解框架ERNIE 2.0,該框架支持增量引入詞匯(lexical)、語法(syntactic) 、語意(semantic)等3個層次的自定義預訓練任務,能夠全面捕捉訓練語料中的詞法、語法、語意等潛在資訊,這些任務通過多任務學習對模型進行訓練更新,每當引入新任務時,該框架可在學習該任務的同時,不遺忘之前學到過的資訊,這也意味著,該框架可以通過持續構建訓練包含詞法、句法、語意等預訓練任務,持續提升模型效果,
新發布的ERNIE 2.0模型結構
依托該框架,百度充分借助飛槳PaddlePaddle多機分布式訓練優勢,利用79億tokens訓練資料(約1/4的XLNet資料)和64張V100 (約1/8的XLNet硬體算力)訓練的ERNIE 2.0預訓練模型不僅實作了SOTA效果,而且為開發人員定制自己的NLP模型提供了方案,目前,百度開源了ERNIE 2.0的fine-tuning代碼和英文預訓練模型,
百度研究團隊分別比較了中英文環境上的模型效果,英文上,ERNIE 2.0在自然語言理解資料集GLUE的7個任務上擊敗了BERT和XLNet,中文上,在包括閱讀理解、情感分析、問答等不同型別的9個資料集上超越了BERT并重繪了SOTA,

ERNIE的作業表明,在預訓練程序中,通過構建各層面的無監督預訓練任務,模型效果也會顯著提升,未來,研究者們可沿著該思路構建更多的任務提升效果,
自2018 年預訓練語言模型BERT 提出之后,預訓練語言模型將自然語言處理的大部分任務水平提高了一個等級,這個領域的研究也掀起了熱潮,如今百度ERNIE 2.0 再度為行業提供了研究思路上的方法創新,可持續學習的特點亦將成為NLP領域發展里程中的注腳,
劃重點!
GitHub:https://github.com/PaddlePaddle/ERNIE
查看ERNIE模型使用的完整內容和教程,或者點擊star收藏到個人主頁

版本迭代、最新進展都會在GitHub第一時間發布,歡迎持續關注!
也歡迎大家加入ERNIE官方技術交流QQ群:760439550,可在群內交流技術問題,會有ERNIE的研發同學為大家答疑解惑,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/65649.html
標籤:其他
上一篇:Android9.0 如何區分SDK介面和非 SDK介面
下一篇:為什么要做特征歸一化/標準化?
