Inside-Outside Net
演算法背景
影像的背景關系資訊在人類和計算機視覺中起重要的作用,為了收集背景關系資訊,論文使用RNN來在水平和垂直方向傳遞空間變化的背景關系資訊,并且使用了跨層連接,繞過中間層,將不同層的特征進行組合,
網路結構

每次傳播,VGG16會從圖片中提取特征圖并且生成2000個Region proposal,對于每個Region proposal,網路使用ROI pooling提取固定尺寸,每個特征經過L2歸一化,concatenate, 縮放和降維(1x1卷積)之后產生一個512x7x7的矩陣,經過兩個全鏈接層之后輸出一個目標分類預測結果和邊界框調整結果,
為了檢測目標,一個單獨的深層卷積神經網路處理一幅影像并保留每層的卷積特征圖,在網路頂部,一個2倍堆疊的4方向的IRNN計算影像的全域和區域的背景關系特征,背景關系特征圖大小與conv5相同,這是一張圖的流程,除此之外,我們還有幾千個roi Region,對于每個Region,我們從幾個層提取固定長度的特征描述符(conv3,conv4,conv5,背景關系特征),描述符進行L2歸一化、concatenate、重縮放,降維之后生成一個softmax之后的分類預測結果,和一個邊界框回歸預測結果,
多尺度池化
比較成功的檢測網路像Fast RCNN,Faster RCNN等都是從VGG16的最后一個卷積層(conv5_3)進行池化,因為我們想使用訓練好的VGG16網路,所以保留現在的層的形狀是非常重要的,因此如果我們想對更多層進行池化,最終的特征圖需要保持到512x7x7的形狀,以便于輸入fc6時的形狀是正確的,為了匹配512x7x7的形狀,我們concatenate沒一個池化之后的特征圖,并使用1x1卷積減少維度,
使用IRNN結合背景關系特征

上圖展示了ION中計算背景關系特性的結構,在最后一層卷積層(conv5)的頂部,我們使用rnn在影像上橫向移動,傳統來說,RNN沿著序列從左到右移動,移動一步消耗一個輸入,更新隱藏層的狀態,并產生一個輸出,我們沿著影像的每一行每一列放置RNN,將其擴展到二維,所以總共有4個RNN:上,下,左,右,RNN在conv5上方,并產生于Conv5相同的形狀的輸出,
本文使用的是ReLU組成的RNN,Le等人稱為IRNN,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/242386.html
標籤:其他
上一篇:C#程式檢測指定計算機埠是否打開
