ELECTRA
一、 ELECTRA是什么
ELECTRA是谷歌提出的一種預訓練模型,全稱(Ef?ciently Learning an Encoder that Classi?es Token Replacements Accurately.)
論文:ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS
使用判別式而非生成式的預訓練文本編碼器,
二、 ELECTRA模型結構
整體結構如下圖所示:

借鑒了對抗網路的思想,共訓練兩個神經網路模型
左邊生成器Generator:
隨機屏蔽原始文本中的單詞,進行預測學習,
右邊判別器Discriminator:
判定單詞是否與原始文本一致,如果一致則為真,如果不同則為假,
三、ELECTRA模型如何訓練
采用聯合訓練的方法,但與對抗網路不同的時,引數不在生成器和判別器中反向傳播,只共享embedding,embedding大小和判別器的隱層一致,
1.訓練生成器n步
2.根據生成器引數初始化判別器,凍結生成器引數,同樣訓練判別器 n步,
訓練完成后丟棄生成器,使用判別器進行下游任務的微調,
模型大小,更小的生成器效果更好,實驗證明生成器為判別器的1/2或1/4效果最好,
與對抗網路的區別:
生成器使用最大似然估計訓練,而非對抗式訓練
當生成器生成與原始文本一致的單詞時,判別器的預測標簽為“真”,(在對抗網路中,如果是生成器生成的則判別器判定為“假”)
四、ELECTRA 優點
優點:比Bert 模型更小,效率更高,效果更好,計算耗時1 GPU in 4 days
轉載請註明出處,本文鏈接:https://www.uj5u.com/qukuanlian/242917.html
標籤:區塊鏈
上一篇:kratosL 01
