VGG模型-文獻閱讀筆記-有解無憂

論文簡介

該論文提出深度神經網路的深度對于大規模影像識別模型的表現有顯著提升，模型使用3*3的小型卷積過濾器和較小的卷積層步幅，并且其神經網路層數達到了16-19層，基于這些發現在ImageNet-2014比賽中取得了第一名和第二名，并且該模型在其他型別的影像資料集上也具有泛化性，具有良好的遷移能力，

神經網路設定

神經網路的輸入是224×224像素尺寸的RGB圖片，并且對圖片進行了預處理，減去平均RGB值，模型中使用了非常小的感受野，尺寸為3×3，這種設定剛好能捕獲一個像素周圍的其他像素值，并且卷積層的步幅為1，這意味這每個像素都會被進行特征提取，經過這種卷積處理后，輸入的空間解析度依舊保持不變，空間池化由跟在卷積層后面的5個最大池化層執行，最大池化在2×2的視窗上執行，步幅為2，
卷積層后是全連接層，第1、2層輸入為4096通道，第3層進行1000路分類，最后是softmax層，所有的隱藏層都設定了ReLU非線性激活函式，不同于AlexNet(Krizhevsky et al., 2012)，該模型不包含LRN（Local Response Normalization），它不會改進模型效果并且會增加計算量，

圖1中每一列都表示一種卷積網路設定，他們在神經網路結構上都是類似的，只有卷積網路的深度不同，網路深度從11層到19層，卷積層的寬度也更小，第一層只有64 ，每經過一次最大池化，卷積層寬度就會變為原來的兩倍，
圖2展示了這6種網路模型的引數數量，深度的增加并沒有使神經網路引數更多，反而比AlexNet等模型引數更少一些，
相比較于使用更大的感受野和卷積步幅，整個模型都只使用了3×3的感受野和步幅為1的卷積方式，在不插入池化操作的情況下，兩個3×3的卷積層堆疊總共有5×5的有效感受野，三個卷積層則有7×7的有效感受野，一個7×7的卷積層的有效感受野和三個3×3的卷積堆疊的有效感受野相同，并且通過合并三個非線性校正層，使得決策函式更加具有區分性，這種操作也減少了引數的數量：假設三層3×3的卷積堆疊輸入和輸出都有C個通道，所需引數為$3(3^2C2)=27C^2$, 而一個7×7卷積層的引數為$7^2C2=49C^2$ ，所需引數數量變為原來的81%，這種方式可以看成是對7×7的卷積過濾施加了一個正則化，使得他們通過3×3過濾器進行分解，并加入了非線性激活函式，
配置C中1×1卷積層的加入，可以在不影響感受野的情況下，為決策函式增加非線性激活函式，1×1的卷積層也被使用在“Network of Network-Lin et al. (2014)”模型中，

影像分類訓練和評估

訓練

模型訓練通過使用帶動量的小批量梯度下降（基于LeCun等人的反向傳播演算法），優化多項式邏輯回歸目標，批數量為256，動量0.9 ，通過設定L2懲罰系數為5×10^-4來進行權重衰減，在兩個全連接層加入引數為0.5的dropout，學習率被設定為0.01，當驗證集準確率停止下降后，將學習率除以10 ，經過74輪訓練37萬次迭代，學習率下降三次，
雖然與AlexNet相比該模型具有更多的引數和更深的網路結構，但是卻能夠更快地收斂，這可能是由于更深的網路層數和更小的卷積尺寸，或者是在某些層進行的初始化，
通過對表1中的網路結構A進行隨機初始化預訓練，然后將訓練引數用于更深層次的網路，把A的引數初始化前四層卷積層后后三層全連接層，對于其他層采取隨機初始化，將權重設定為均值為0，方差為0.01的正態分布，偏差被設定為0 ，也可以使用Glorot & Bengio (2010) 的隨機初始化程序而不進行預訓練，
為了獲得224×224的輸入圖片，對尺寸變換后的圖片進行隨機裁決，每次迭代的每次隨機梯度下降都進行一次裁剪，訓練也使用了(Krizhevsky et al., 2012)的資料增強方法，對影像進行水平鏡像和隨機RGB顏色變換，
訓練集也通過改變訓練集圖片尺寸來進行資料增強：將S記為圖片放縮后最小邊的長度，輸入圖片的像素尺寸固定為224×224，所以放縮后的圖片S不能小于224，當圖片放縮后尺寸S=224，模型會獲取整個圖片的特征，生成最小的圖片圖片，如果放縮后圖片尺寸S遠大于224，那么圖片就會進行裁剪后再輸入模型，這種裁剪會獲得圖片每個分塊的特征，
在訓練程序中會使用兩種放縮尺寸S，第一種是固定引數，選取了S的兩種大小：256和384 ，通過將訓練圖片放縮到這兩種尺寸進行訓練，模型會對放縮后的圖片進行裁切，獲得多個224×224的輸入圖片，
第2種方法是將S設定為多尺度，每個訓練圖片會被隨機放縮到$[S_{min},S_{max}]$尺度范圍內，本論文選取的最小值和最大值為256和512 ，因為圖片中的物件可能是各種大小的，這種放縮更有可能捕獲到影像中不同位置不同大小的物件，為了加速訓練，本文中先預訓練了固定尺寸S=384的模型，

測驗

在測驗時，會將圖片放縮到比例為Q，Q不必等于訓練集的放縮比例S，
第一種測驗方式為dense evaluation，通過將網路的全連接層進行替換，第一個全連接層換為7×7的卷積層，剩下兩個全連接層換為1×1的卷積層，然后把測驗圖片放縮后輸入全卷積網路進行測驗，得到一個類別得分圖，通道的數量和分類的數量一致，以及一個依賴于輸入影像尺寸的變數空間解析度，測驗中也會將測驗集圖片進行水平翻轉，然后將這些圖片的softmax分類結果進行平均，獲得最終的分類，
因為全卷積網路應用于整個影像，也就沒有必要去在測驗時采樣多個裁剪圖片，這會很低效，需要網路重新計算每個裁剪圖片，
同時，multi-crop使用一組裁剪圖片也可以改進測驗準確率，相較于全卷積網路，它可以在對輸入影像的每個采樣都得出一個結果，
multi-crop評估和稠密評估一定程度上是互補的，這是由于不同的卷積邊界條件，當把卷積網路應用于一個裁切圖片，其包含的特征映射是填充零的，而稠密評估因為卷積和空間池化操作，是填充同一裁切圖片相鄰部分的特征，這顯著增加了整個網路的感受野以及捕獲的背景關系，但是multi-crop提升的準確率還不及它額外的計算成本顯著，

實作細節

模型的訓練使用4塊并行計算，把每一個batch的影像輸入不同的GPU進行梯度計算，梯度和引數在GPU之間都是共享的，訓練效果和在一塊GPU上是類似的，但是通過這種方法加速了計算程序，訓練一個卷積網路所用的時間大概在2-3周，

分類實驗

資料集采用了ILSVRC-2012資料集，這個資料集在ILSVRC 2012-2014比賽都在使用，資料集包含1000類影像：130萬訓練集、5萬驗證集和10萬測驗集，

單尺度評估

根據表格3的內容，訓練集上的尺度抖動能夠顯著提升模型在測驗集上的表現，
通過測驗發現，從A-E卷積網路深度增加錯誤率會下降，雖然C和D有相同的網路深度，但是C包含1×1卷積層，C的表現不如D，這證明雖然1×1卷積層增加了非線性過濾，但是通過卷積網路捕獲空間背景關系是更重要的，
通過將B中一對3×3的卷積層換成一個5×5的卷積層，模型表現反而下降了7%，證明更深的卷積網路和更小的感受野能夠提升模型表現，

多尺度評估

多裁剪評估

稠密評估方法和隨機裁剪評估方法有互補性，在測驗中隨機裁剪略由于稠密評估，但是將兩者的softmax結果進行平均后，效果要好于單獨使用一種方法，

卷積網路融合

之前單獨測驗了每種卷積網路的表現，通過將多個模型的soft-max結果進行平均，從測驗結果可以發現，融合D和E網路結構的結果，使用多裁剪和稠密評估結合后，模型表現再次提升，

通過對不同方法的不同卷積網路數量進行綜合對比和比較，發現多個卷積網路融合后能夠取得更好的效果，卷積網路融合的方法能提升大部分模型的表現，

結論

通過評估發現，更深的卷積神經網路在大規模影像分類上表現很好，卷積網路的深度有益于分類準確度，此外，VGG模型有很好的泛化能力，能夠在其他分類任務和資料集上表現良好，

本文來自博客園，作者：d42z，轉載請注明原文鏈接：https://www.cnblogs.com/d42z/p/16793127.html

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/514263.html

標籤：其他

上一篇：使用Mask R-CNN模型實作人體關鍵節點標注

下一篇：在 Kubernetes 中實作微服務應用監控