深度學習影像處理之VGG網路模型-有解無憂

VGG介紹:

VGG網路的配置：（VGG-16是許多模型中的主干網路）

VGG網路的亮點：

概念擴展-CNN感受野（receptive field）：

VGG網路結構：

深度學習影像處理之VGG網路模型

VGG介紹:

由牛津大學著名研究所VGG提出，斬獲該年ImageNet競賽中Localization Task（定位任務）第一名和Classification Task（分類任務）第二名，

VGG網路的配置：（VGG-16是許多模型中的主干網路）

在原論文中，作者給了6個VGG網路的不同配置，并且嘗試了不同的深度（11、13、16、19層）以及是否采用LRN等，在實際使用程序中，我們一般都會采用D這個配置，即16層：13個卷積層以及最后3個全連接層，

VGG網路的亮點：

概念擴展-CNN感受野（receptive field）：

在卷積神經網路中，決定某一層輸出結果中一個元素所對應的輸入層的區域大小，被稱作感受野，通俗的來說就是，輸出feature map 上的一個單元對應輸入層上的區域大小，

簡單例子：

如上圖，最下層是一個9*9*1的特征矩陣 ，首先將其通過Conv1（大小為3*3，步距為1），通過計算公式，可以得到大小為4*4*1的特征矩陣；再將其通過最大池化下載量操作（大小為2*2，步距為2），得到一個2*2*1的大小，

接下來計算感受野：

Feature map(最后得到的特征圖)：F=1

Pool1層：其輸出的是2*2大小，其輸入的是4*4大小，Ksize=2,Stride=2則F=（1-1）*2+2=2

Conv1：其輸出的是4*4大小，其輸入的是9*9大小，Ksize=3,Stride=2則F=（2-1）*2+3=5

VGG網路結構：

補充：（通過3*3的卷積核，輸入、輸出尺寸不變；通過maxpool，將特征矩陣的高和寬直接縮小一半），

結構圖：（通過D這個模型進行繪制的）

說明：白色矩形框：代表卷積和激活函式

紅色矩形框：代表最大池化下載量

藍色矩形框：全連接層和激活函式

橙色矩形框：softmax處理

結構程序：（配置表和結構圖一起觀察）

1、首先輸入一張224*224*3大小的影像，經過兩個3*3的卷積層之后，所得到的特征圖大小為224*224*64（尺寸大小不變，因為采用的是64個卷積核，所以深度也為64），

2、通過一個最大池化下載量層，得到的特征圖為112*112*64（大小縮小一半，不改變深度），

3、再通過兩個3*3*128的卷積層，得到的特征圖為112*112*128（深度變為128），

4、通過一個最大池化下載量層，得到的特征圖為56*56*128（大小縮小一半，不改變深度），

5、再通過三個3*3*256的卷積層，得到的特征圖為56*56*256（深度變為256），

6、通過一個最大池化下載量層，得到的特征圖為28*28*256（大小縮小一半，不改變深度），

7、再通過三個3*3*512的卷積層，得到的特征圖為28*28*512（深度變為512），

8、通過一個最大池化下載量層，得到的特征圖為14*14*512（大小縮小一半，不改變深度），

9、再通過三個3*3*512的卷積層，得到的特征圖為14*14*512（深度變為512），

10、通過一個最大池化下載量層，得到的特征圖為7*7*512（大小縮小一半，不改變深度），

11、再通過兩個為4000個節點的全連接層以及激活函式，得到1*1*4096向量

12、再通過一個為1000個節點的全連接層（因為1000個類別），注意不需要激活函式，得到1*1*1000向量，

13、最后將通過全連接層得到的一維向量，輸入到softmax激活函式，將預測結果轉化為概率分布，

如上圖，最下層是一個991的特征矩陣，首先將其通過Conv1（大小為33，步距為1），通過計算公式，可以得到大小為441的特征矩陣；再將其通過最大池化下載量操作（大小為22，步距為2），得到一個221的大小，

Pool1層：其輸出的是22大小，其輸入的是44大小，Ksize=2,Stride=2則F=（1-1）*2+2=2

Conv1：其輸出的是44大小，其輸入的是99大小，Ksize=3,Stride=2則F=（2-1）*2+3=5

1、首先輸入一張2242243大小的影像，經過兩個33的卷積層之后，所得到的特征圖大小為224224*64（尺寸大小不變，因為采用的是64個卷積核，所以深度也為64），

2、通過一個最大池化下載量層，得到的特征圖為11211264（大小縮小一半，不改變深度），

3、再通過兩個33128的卷積層，得到的特征圖為112112128（深度變為128），

4、通過一個最大池化下載量層，得到的特征圖為5656128（大小縮小一半，不改變深度），

5、再通過三個33256的卷積層，得到的特征圖為5656256（深度變為256），

6、通過一個最大池化下載量層，得到的特征圖為2828256（大小縮小一半，不改變深度），

7、再通過三個33512的卷積層，得到的特征圖為2828512（深度變為512），

8、通過一個最大池化下載量層，得到的特征圖為1414512（大小縮小一半，不改變深度），

9、再通過三個33512的卷積層，得到的特征圖為1414512（深度變為512），

10、通過一個最大池化下載量層，得到的特征圖為77512（大小縮小一半，不改變深度），

11、再通過兩個為4000個節點的全連接層以及激活函式，得到114096向量

12、再通過一個為1000個節點的全連接層（因為1000個類別），注意不需要激活函式，得到111000向量，