我現在正在學習卷積神經網路并在 Pytorch 上練習。最近在看一些優化器相關的論文,比如SGD,Adam,Radam。
在查看論文的視覺結果時,我發現他們的影像在第 80 個 epoch 時表現出準確率的突然提高(論文“ON THE VARIANCE OF THE ADAPTIVE LEARNING RATE AND BEYOND”中的圖 6)

或第 150 個 epoch(論文“ADAPTIVE GRADIENT METHODS WITH DYNAMICBOUND OF LEARNING RATE”中的圖 3)

不管是什么演算法。
誰能告訴我為什么會這樣?謝謝你。
uj5u.com熱心網友回復:
如果你的實作是正確的,這可能意味著你的模型此時學習了一些非常有用的東西(所以你的梯度下降找到了一個方向)。例如,模型必須自己學習輸入的正確歸一化。看到 loss 具有這種“階梯式”損失圖并不少見,我以前見過這個(但不記得確切位置)。
這也可能意味著您使用了低效的權重初始化,因此您的優化演算法必須手動找到最佳的正確權重。
uj5u.com熱心網友回復:
他們大大降低了學習率。可能他們開始時學習率太大而無法快速獲得一些“平均”模型,然后降低學習率以將此模型調整為更好的準確度。有許多訓練方法可以降低學習率。他們選擇了這樣的。
在論文“具有動態學習率的自適應梯度方法”中,他們說他們降低了學習率:
我們采用 200 個 epoch 的固定預算,并在 150 個 epoch 后將學習率降低 10
可能在另一篇論文中他們做了同樣的事情,但他們沒有寫。
轉載請註明出處,本文鏈接:https://www.uj5u.com/gongcheng/386600.html
