Transformor模型的邏輯問題
本人在使用經典的Transformor模型進行機器翻譯任務時,發現了一個邏輯問題。
Transformor官方Pytorch代碼中,在trian和eval中都是這么寫的:
pred = model(src_seq, trg_seq)
這不就意味著,模型進行預測的時候,要以全部真實資訊trg_seq作為輸入量?這不會存在邏輯問題嗎?
雖然原文中進行了sequence_mask,也就是在Decoder部分,在預測第t個輸出時,僅利用t之前的trg_seq資訊計算注意力。
這個僅僅可以解決訓練程序的邏輯問題,而在eval階段,或者說是實際應用階段(做機器翻譯),模型應該始終都沒有辦法利用真實資訊trg_seq作為輸入啊!
請問各位大佬,是我理解有問題嗎?還是真的存在邏輯問題?
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/94992.html
標籤:人工智能技術
下一篇:QT UDP加入組播失敗
