神經網路開發食譜-有解無憂

新年新氣象：鴿了漫長時間的公眾號終于重新開張了，這次公眾號的寫作主題將圍繞深度學習，參考了Andrej教授和一些大佬的開發經驗，首先對神經網路的整體架構進行理論和技術探討，本節將描述神經網路模型構建的開發體系進行學習，

1.閱讀指南

? 訓練神經網路時會出現很多漏洞，并非我們認知上簡單的調包，調參即可使用，很多情況，盡管構建了錯誤的網路模型（訓練影像忘記檢測反轉影像，自回歸模型將它預測的資料作為輸入，或者權重，正則化等等配置）；大多數情況它仍在訓練，我們無法檢測出它出現了什么問題，所以，成功開發神經網路最需要的就是有一套完整的體系，耐心，以及對細節的關注，

your_data = #匯入你的資料集
model = SuperCrossValidator(SuoerDuper.fit, your_data, ResNet50, SGDOptimizer) #設定你的網路

開始訓練神經網路我們會覺得很容易，因為許多庫和框架可以讓我們在短短二三十行的代碼來解決我們的資料問題，這會造成一種錯誤的印象，很多東西是即插即用的，事實上神經網路并非如此，當我們偏離訓練ImageNet 分類器時，它并非現成的技術，如果不了解該技術的作業原理，將會出現很多意想不到的失敗，，，

2.無聲無息失敗的神經網路訓練

? 當我們錯誤配置代碼時，通常會遇到某些例外，**You plugged in an integer where something expected a string. The function only expected 3 arguments. This import failed. That key does not exist. The number of elements in the two lists isn’t equal.**之類的問題，這只是訓練神經網路的開始，一些代碼可能在語法上正確，但是在整個網路中并不正確，這些問題很難發現，例如反向傳播是一種有漏洞的抽象，試圖忽略它的作業原理將無法應對它帶來的問題，構建和除錯的神經網路模型效果也會低得多，

例如：

Sigmoid上的梯度消失，非線性可能會飽和完全停止學習造成訓練損失是平坦的拒絕向下，可能因為你的權重初始化太大，造成矩陣乘法輸出有一個很大的范圍，此時z*(1-z)是 sigmoid 非線性的區域梯度，從而使x和w的梯度都為0，

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-KNFcwEBO-1641042576116)(https://github.com/Shirakaw/writting/blob/master/1_gkXI7LYwyGPLU5dn6Jb6Bg.png?raw=true)]

ReLU：非線性ReLU它將神經元閾值設定為0，使用ReLU的全連接層的前向和后向傳遞的核心包括：
```
z = np.maximum(0, np.dot(W, x)) #前向傳遞
dW = np.outer(z > 0, x) #后向傳遞：W 的區域梯度
```
如果觀察它的一個神經元在前向傳遞中被設定為0（即z = 0 ，它將不會觸發），那么它的權重將為零梯度，這就是所謂的Dying ReLUs問題，如果一個ReLU神經元不幸被初始化他將永遠不會出發，或者一個神經元的權重在訓練到這個機制的程序中將被一個大的更新淘汰，這個神經元將“永久性死亡“，這就像一個永久性，不可恢復的腦損傷，這些神經元在我們的整個訓練集中永遠不會為任何實體打開，并且將永遠保持死亡狀態，
RNN中的梯度爆炸：參考CS231n中的一個例子如下圖所示：

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳

這個RNN展開了T個時間布，當我們觀察反向傳播的作用時，我們會看到通過所有隱藏狀態和反向傳播的梯度信號總時乘以相同矩陣（遞回Whh）并穿插非線性反向傳播，當我們取一個屬a開始乘以另一個數b(i.e. a * b * b * b * b * b * b…)，如果**|b|** < 1，那么這個序列要么變成0，或者**|b|** > 1時爆炸到無窮大，同樣的事情發生在RNN的反向傳播中（除了b是一個矩陣而不是一個數字以外），

一切在語法上可能正確的，構建的神經網路效果卻很差，這種問題非常苦惱，也許時因為在資料增強部分左右翻轉影像時忘記翻轉標簽，此時我們搭建的網路仍然可以很好的作業，因為我們的網路可以在內部學習檢測翻轉的影像，然后它將預測值左右翻轉，或者在自回歸模型中將預測的事物作為輸入，或者，當我們嘗試剪裁梯度，卻剪裁了損失導致訓練期間忽略例外值等等問題，如果我們構建的模型報錯了，反而是很幸運的，因為大部分時候它會訓練，只不過效果很糟糕而已，，，

3.開發食譜

? 鑒于以上發生的問題，如果我們想使用神經網路應用到一個新的問題時，我們應該構建一個流程體系，重視它的規則，從簡單到復雜構建，在外面對將要發生的事情做出具體假設，通過實驗驗證他們或者可視化展示，知道我們發現了一些問題，如果我們直接一股腦的對未經驗證的模型進行檢測，勢必需要很久才能找到問題所在，多說無益，開始描述整個開發程序，

3.1 資料脫敏

? 訓練神經網路的第一步時，無需接觸任何神經網路代碼，而是從徹底檢查資料開始，這一步是非常關鍵的一步，往往我們在資料處理的某一個步驟會一定程度上的影響實驗結果，檢查資料重復性問題，損壞的影像標簽，資料的不平衡性問題，考慮如何定義分類程序，需要了解樣本的區域特征還是全域特征，是否可以預處理，平均化，影像的噪聲問題，當我們對資料有了一定的掌握，可以通過一些方法搜索/過濾/排序我們需要的資料（標簽型別）并可視化他們的分布觀察各軸的例外值，他們會影響資料的質量或預處理中的一些錯誤，

3.2 構建完整的訓練—評估框架

? 當處理好資料后，下一階段是構建完整的訓練—評估框架，通過一系列實驗驗證它的可靠性，我們可以先使用一些簡單模型，或非常小的網路（不容易出錯的模型）訓練，可視化損失，正確率，模型預測，并在此程序使用明確假設進行消融實驗，

? 此階段的提示和技巧：

fix random seed：使用固定的隨機種子，保證我們運行兩次代碼時，將獲得同樣的結果，
simplify：此階段不需要資料增強程序，它是正則化策略無需此時出現
繪制評估曲線無需在意訓練時間：在繪制測驗損失時，在整個資料集上評估不要批次繪制測驗損失
verify loss 驗證我們的損失例如，如果你正確地初始化你的最后一層，你應該-log(1/n_classes)在初始化時測量softmax，可以為 L2 回歸、Huber 損失等匯出相同的默認值，
init well：正確初始化最終層權重，正確設定這些將加速收斂并消除**“hockey stick”**損失曲線，在最初的幾次迭代中，構建的網路基本上只是學習偏差，
human baseline：除了監控損失值等可解釋和可檢查指標以外，盡可能與自評估準確性進行比較，或者對測驗資料進行兩次注釋，對于每個例子，將一個注釋作為預測，第二個注釋作為真實值，
input-indepent baseline：訓練與輸入無關的baseline，觀察我們的模型是否學會了從輸入中提取資訊，
overfit one batch：過擬合幾個batch，增加模型的容量驗證我們可以達到的可實作的最小損失，
verify decreasing training loss：驗證減少訓練損失，如果資料集上欠擬合，可以適當增加容量，或者使用一些方法來處理，
visualize just before the net：在y_hat = model(x)(或sess.run在tf之前）將資料和標簽tensor解碼可視化，
visualize prediction dynamics：在訓練程序中對固定測驗批次的模型預測進行可視化，這些預測將動態的為我們提供整個訓練程序，如果網路以某種方式擺動，則可能會感覺到網路無法適應資料集，從而顯示出不穩定性，學習率的過高或過低也容易造成抖動問題，
use backprop to chart dependencies：使用反向傳播來繪制依賴關系，避免造成矢量化，廣播等操作的計算錯誤（該型別錯誤很難發現，網路仍會正常訓練），除錯方法是將損失設定很小，如實體i的所有輸出總和，輸入到反向傳播計算，確保第i個輸入得到一個非零梯度，同樣的策略可以用來確保你的自回歸模型在時間t只取決于1…t-1，更廣泛地說，梯度給你提供了關于網路中什么取決于什么的資訊，
generalize a special case：將模型撰寫成函式形式，先寫出完整的訓練版本然后加入回圈等矢量化指令將其轉化為完整的模型代碼

3.3 過擬合

? 在這個階段，我們已經充分的掌握了整個資料集，并且有了完整的訓練+評估模型，對于任何給定的模型，我們可以重復地訓練，在充分認識該問題的基礎上，可以很好的將結果與預測結果進行比對，此時我們可以準備更新下一個模型了，尋找一個好的模型通常有兩階段：首先得到一個足夠大的模型，它可以過擬合（專注于訓練損失），然后對其進行適當的正則化（放棄訓練損失用以改善驗證損失），

? 此階段的提示和技巧：

picking the model：挑選合適的模型有一個很關鍵的道理們就是模型越簡單它的效果往往越好，在搭建模型時盡量避免一些奇妙的搭建思路，最好的方法就是參考最相關的論文，并復制粘貼他們獲得的良好性能的最簡單架構，并在此基礎上加以訓練，所謂站在巨人的肩膀上即使如此，
adam is safe：在設定超引數時，建議使用3e-4的Adam，因為Adam通常對超參的容忍度更高，對于ConvNets來說，調整好的SGD總是比Adam略勝一籌，但是最佳的學習率范圍卻十分小，多是針對具體問題的，通常在初始階段（RNN和相關的序列模型）使用Adam是明智之選，
complexify only one at a time：如果想優化模型，建議一個一個嘗試確保，每次優化都能獲得預期性能提升，
do not trust learning rate decay defaults：最好禁用學習率衰減，手動除錯避免學習率過早的自動衰減為0，

3.4 正則化

? 到了這一階段，需要通過放棄一些訓練集的準確性進行正則化，獲得一些驗證準確性，

? 此階段的提示和技巧：

get more data：在任何環境下對模型正則化的最佳和首選方法就是添加更多真實的訓練集，花費大量時間從小型資料集中”榨汁“是不明智的，增加更多資料是能無限提高神經網路模型性能的唯一確保方法，
data augment：資料增強為正則化的第二好方法，
creative augmentation：創意性的變形資料也是擴展資料集創造性的方法：例如，域隨機化，使用模擬將資料插入場景中，CV中的影像翻轉等一系列手段，
pretrain：對網路進行預訓練，
stick with supervised learning：堅持監督學習而不是無監督學習（至少現在是），
smaller input dimensionality：如果資料集很小，任何添加的虛假輸入都會造成過擬合問題，
smaller model size：約束模型尺寸，消除大量引數，
decrease the batch size：減少batch大小，較小的batch在某種程度上對應更強的正則化，因為批次經驗均值/標準差是完整均值/標準差的更近似版本，
drop：添加dropout（不適用于批量標準化），
weight decay：增加權重衰減懲罰，
early stopping：停止根據測量的驗證損失進行訓練，從而在模型即將過擬合時得到最佳引數配比，
try a larger model：嘗試更大的模型，往往訓練效果比小訓練樣本要好，

? 最后，為了確保我們的模型是有效的，可以將網路的第一層權重可視化，確保模型獲得有意義的良好邊緣，如果第一層看起來像噪音，那么可能有問題，同樣，隱藏層出現噪音問題也可能存在問題，

3.5 調參

? 此步驟處于網路訓練回圈中，為了我們的模型實作低驗證損失，

? 此階段的提示和技巧：

random over grid search：為了同時調整多個超參，使用網格搜索可以確保覆寫所有引數，最好使用隨即搜索，因為神經網路通常對某些引數更敏感，如果引數a很重要但更更改b無影響，此時我們寧可對a進行更徹底的采樣，而不是在幾個固定點多次采樣，
hyper-parameter optimization：使用一些貝葉斯超引數優化工具箱

3.6 最終結果

? 當我們找到了最佳引數和最好的模型架構，仍然可以通過一些方法來提高正確率

? 此階段的提示和技巧：

ensembles：模型集成可以提高準確率
leave it training：當網路的準確率保持一定穩定時，可以嘗試使用長時間保持訓練，

4. 結論

? 參考了Andrej教授和一些大佬的調參經驗，總結了搭建神經網路的所有成功要素，相信這對于我們進一步探索復雜模型，模型改進，論文復現有很大幫助，掌握好整個理論體系，有助于我們進一步的發展，在"搭積木"的道路上越走越遠哈.

神經網路開發食譜

1.閱讀指南

2.無聲無息失敗的神經網路訓練

3.開發食譜

3.1 資料脫敏

3.2 構建完整的訓練—評估框架

3.3 過擬合

3.4 正則化

3.5 調參

3.6 最終結果

4. 結論

推薦閱讀