作者:中南大學可視化實驗室 可解釋性機器學習專案組 18屆本科生研究員 WXY
日期:2020-9-18
論文期刊:2014-CVPR
標簽:RCNN 目標檢測
一、寫在前面的知識
選擇性搜索
https://www.cnblogs.com/zyly/p/9259392.html
提取region proposal是目標檢測、目標跟蹤中的基本環節,
目標檢測的第一步是選擇更小的區域,然后利用演算法去識別區域中物品的得分,
最直接的方法是滑動視窗,但是明顯這很耗時,因為區域的尺寸和位置是不一定的,
region proposal是更優秀的區域候選演算法,它將影像輸入,輸出邊界框作為候選區域,它們大多與目標很接近,selective search是代表性演算法,
selective search:通過顏色、紋理、形狀等特征將原始影像分為等級區域(即將其分割)

但分割后后的圖片不能直接做目標檢測,因為大多數物體包含兩種以上的顏色(一個物體肯包含豐富的顏色資訊);如果物體有重疊,這種方法無法處理,
selective search的步驟:
- 根據前面的分割的圖片畫出多個框,把所有框放入region串列中
- 更具相似程度(顏色、紋理、形狀等),計算框的兩兩相似圖,把相似度放入另一個串列A
- 從A中找到相似度最大的框a,b,將它們合并
- 把合并的框加入region串列,從A中洗掉和a,b相關的相似度,重復此程序,直到A為空,

候選框的數量層數十萬降到幾千
解釋一下相似度:
顏色:每個顏色通道生成25-bin的直方圖,共75維
紋理:每個顏色通道使用高斯差分對8個方向計算提取紋理特征,使用10-bin直方圖表示
尺寸:鼓勵尺寸小的區域合并
形狀兼容相似度:兩區域重合比例程度
相似度是四個特征的線性組合
BoundingBox回歸
selective search得到的候選區可能與實際目標存在偏差
selective search選出紅色的框,ground truth是綠色框,飛機已經檢測出來,但是IoU<0.5導致識別失敗,觀察只需要對其進行線性變換(縮放、平移)就可以成功識別,
CNN輸出的特征向量里包含了資訊,所以在CNN輸出的特征向量上做一個loss計算,調整原來框的位置(即縮放、平移操作),

實際上這就是一個線性回歸的程序,給定輸入的特征向量X,學習一組引數W,使回歸后的值與真實值Y非常接近,即 
對每種類都設計邊界框回歸,需要設計好的loss函式,那么學習到的引數可以使loss收斂,就可對邊界框進行修正,
在實踐中,由于資料集不夠大,很少有人從頭開始訓練網路,常見的做法是使用預訓練的網路(例如在ImageNet上訓練的分類1000類的網路)來重新fine-tuning(也叫微調),或者當做特征提取器,
以下是常見的兩類遷移學習場景:
1 卷積網路當做特征提取器,使用在ImageNet上預訓練的網路,去掉最后的全連接層,剩余部分當做特征提取器(例如AlexNet在最后分類器前,是4096維的特征向量),這樣提取的特征叫做CNN codes,得到這樣的特征后,可以使用線性分類器(Liner SVM、Softmax等)來分類影像,
2 Fine-tuning卷積網路,替換掉網路的輸入層(資料),使用新的資料繼續訓練,Fine-tune時可以選擇fine-tune全部層或部分層,通常,前面的層提取的是影像的通用特征(generic features)(例如邊緣檢測,色彩檢測),這些特征對許多任務都有用,后面的層提取的是與特定類別有關的特征,因此fine-tune時常常只需要Fine-tuning后面的層,
預訓練模型
在ImageNet上訓練一個網路,即使使用多GPU也要花費很長時間,因此人們通常共享他們預訓練好的網路,這樣有利于其他人再去使用,例如,Caffe有預訓練好的網路地址Model Zoo,
何時以及如何Fine-tune
決定如何使用遷移學習的因素有很多,這是最重要的只有兩個:新資料集的大小、以及新資料和原資料集的相似程度,有一點一定記住:網路前幾層學到的是通用特征,后面幾層學到的是與類別相關的特征,這里有使用的四個場景:
1、新資料集比較小且和原資料集相似,因為新資料集比較小,如果fine-tune可能會過擬合;又因為新舊資料集類似,我們期望他們高層特征類似,可以使用預訓練網路當做特征提取器,用提取的特征訓練線性分類器,
2、新資料集大且和原資料集相似,因為新資料集足夠大,可以fine-tune整個網路,
3、新資料集小且和原資料集不相似,新資料集小,最好不要fine-tune,和原資料集不類似,最好也不使用高層特征,這時可是使用前面層的特征來訓練SVM分類器,
4、新資料集大且和原資料集不相似,因為新資料集足夠大,可以重新訓練,但是實踐中fine-tune預訓練模型還是有益的,新資料集足夠大,可以fine-tine整個網路,
實踐建議
預訓練模型的限制,使用預訓練模型,受限于其網路架構,例如,你不能隨意從預訓練模型取出卷積層,但是因為引數共享,可以輸入任意大小影像;卷積層和池化層對輸入資料大小沒有要求(只要步長stride fit),其輸出大小和屬于大小相關;全連接層對輸入大小沒有要求,輸出大小固定,
學習率,與重新訓練相比,fine-tune要使用更小的學習率,因為訓練好的網路模型權重已經平滑,我們不希望太快扭曲(distort)它們(尤其是當隨機初始化線性分類器來分類預訓練模型提取的特征時),
二、RCNN正式開始
目標識別:在給定影像中識別給定的物體,將整張影像輸入,輸出類別標簽并給出影像中物體出現的概率,
目標檢測:輸入影像,回傳影像中包含的物體,還要對物體進行定位,

在RCNN之前基于PASCAL VOC資料集的目標檢測已經到達一個瓶頸期,之前的目標檢測大多基于SIFT和HOG來提取特征,PASCAL VOC目標檢測發展很緩慢,每次只是對之前的系統進行很小的調整,當Alexnet出現后,人們又開始重視CNN,作者就是希望將通過CNN在目標分類和目標檢測之間構建橋梁,
這篇文章首次展現了CNN可以很大程度地提升基于PASCAL VOC的目標檢測能力,它展示了一個簡單可測量的目標檢測演算法,在VOC 2012上將mAP(平均準確率)提升了30%,達到了53.3%,
兩個主要問題:在深層網路中定位目標、在帶標簽資料量不足時如何訓練高能力的網路
第一個問題:定位,第一種考慮是將其看做是一個回歸問題,但是別人做出的結果只有30.5%的準確率,不夠優秀,第二種是考慮使用滑動視窗,之前滑動視窗已經在CNN中使用了20年了,用于檢測人臉和行人,但之前的網路都很簡單,只有兩層卷積層,如果在深層的網路中使用(比如這里的5層),后面的單元有很大的感受野195*195,這使得精確定位變成了不可實作的系統問題(同時滑動視窗會消耗過多時間),作者使用的是“使用區域識別(recognition using regioins),它適合目標檢測與語意分割,總的來說,這種方法對輸入影像產生大約2000個對類獨立的區域建議,然后CNN會從每個區域建議中提取定長的特征向量,然后將其輸入到類特定的線性SVM中,

第二個問題:帶標簽資料不足,作者使用了遷移學習中的微調(fine-tuning),首先在ILSVRC上進行有監督的預訓練,然后在PASCAL(較小的資料集)上進行微調,微調帶來的提升是顯著的,mAP上升了8%,
補充:作者使用了bounding-box regression,對降低錯誤定位率有顯著作用,
1. 使用RCNN進行目標檢測
目標檢測系統分為三個模塊:產生類獨立的區域建議;一個大型CNN,從每個區域提取定長特征向量;一組類特定的線性SVM
區域建議:使用了selective search演算法
特征提取:使用Caffe,CNN包括5個卷積層和兩個全連接層,從每個區域建議中提取4096維的特征向量,CNN的輸入必須是227*227大小,但是區域建議的大小是不固定的,作者采取了簡單的方法,直接將區域扭曲到需要的大小


2、訓練
有監督的預訓練:在大型輔助資料集ILSVRC2012上進行預訓練,僅使用影像基本的注釋,沒有box標記,預訓練得到的網路在ILSVRC2012上得到了2.2%的top-1錯誤率,
域特定的微調:為了使這個CNN能應用到目標檢測和新的域(扭曲后的區域建議),繼續在這個基礎上使用區域建議訓練,除了將原來的1000類的分類器替換為N+1類的分類器(N是目標類數,1是背景,對于VOC N為20),CNN的其他部分不變,對于與真實框的IoU大于0.5的結果認為是positive,其他是negative,隨機梯度下降的學習率是0.001,每次迭代中采樣32個積極視窗,96個背景視窗,mini-batch為128,
3、測驗時的檢測:
在測驗影像上使用selective search提取約2000個區域建議,將其扭曲后輸入CNN得到特征,對每個類使用訓練得到的SVM對這個特征進行評分,然后使用非極大抑制,如果一個區域與得分最高的區域的IoU大于一個閾值,就丟棄這個區域,
(簡單說一下什么是IoU,非極大抑制)

4. 在PASCAL VOC 2010-12的結果
檢測準確率超過其他模型,消耗的時間更少


5、 在ILSVRC2013檢測的結果

左邊是平均準確率,右邊是200個類的準確率的分布,線的最高點是準確率最高的類,box的最高線是第25個,最低線是第75,紅線是中間值,
可視化、消融學習、誤差模式
1、對特征的可視化
想法是選出一個unit(特征圖),將它作為自己的目標檢測器,在一個大的區域建議集合上計算這個單元的激活值,根據結果從大到小地對區域排序后,使用非最大抑制,然后展示得分最高的一些區域,
對第五層卷積層經過池化后進行可視化,選取其中6個單元,每個單元選了16個得分最高的,有些單元可以檢測目標,比如第一行檢測人,有些只能檢測紋理,比如第二行,
2、消融實驗:去掉一些特征觀察影響
微調:

展示了不加FT與加FT的模型,在第五層卷積層和后兩層全連接層的識別能力,
1.明確的是RCNN比之前的演算法準確率高
2.不加FT的準確率低于加FT
3.如果不加FT甚至不如直接去掉全連接層,直接使用卷積層輸出,
作者給出一個結論:CNN的分類能力來自于卷積層,而不是全連接層,有時甚至可以直接不加全連接層,
Bounding-box Regression:帶來了3-4%的提升

ILSVRC2013檢測資料集
將資料集分為train, val, test三部分,val和test是詳細標記的(帶有bounding box標記),train訓練集來自ILSVRC2013分類影像集,不是詳細標記的,
訓練集會被用在CNN微調、SVM訓練、bounding-box回歸訓練
對照實驗:

總結一下:RCNN是將CNN用到目標檢測的開端,相比以前的方法帶來了大幅度的性能提升(30%),它的亮點是將regoin proposal與高性能的CNN結合來定位目標,以及通過微調等技巧在較少的資料集上得到較好的結果,
RCNN的缺點:需要事先提取多個候選區域對應的影像,占用大量的磁盤空間;每個region proposal都需要進入CNN網路計算,導致多次重復的特征提取;因為CNN的輸入時固定的,但之前說過會對候選區域進行扭曲,會帶來形變、過小、損失特征等,這對CNN的特征提取有致命的壞處,
Fast RCNN在資料輸入上不對其限制,加入了ROI Polling層,可以在任意大小的特征映射上為每個輸入ROI區域提取固定的維度特征表示,然后確保每個區域的后續分類可以正常執行,

Faster RCNN:候選區生成、特征提取、分類器分類、回歸器回歸都在神經網路中完成,運行都在GPU上,提高了效率,
對上文的一些修正
檢測程序(這部分沒問題,只是回顧):
輸入影像,使用SS演算法提取約2000個區域
將每個區域扭曲后輸入CNN,對其輸出使用SVM為每個類打分,然后使用非極大抑制選擇更優的區域減少數量
輸入到bounding-box回歸進行優化

訓練程序(明確一下預訓練和微調的作用):
預訓練:
使用或訓練一個分類模型(如AlexNet,VGG),資料集是不充分標記的大型輔助資料集(沒有box標記),預訓練是在訓練識別能力,而不是預測位置的能力
微調:
將CNN的輸出層替換為所需大小的輸出層(N+1),從影像中提取區域,扭曲后輸入CNN進行訓練,將第五個卷積層的池化輸出保存到硬碟,使用這些資料訓練SVM,以及bounding-box回歸,
也就是說,
預訓練只訓練CNN,微調的訓練程序是分段的,微調時訓練CNN、SVM、bounding-box regression是獨立進行的,所以上次說的同時訓練CNN和SVM是錯誤的,將多段學習合并為一段學習是Fast RCNN的改進點之一,
注:
學長的問題:用于學習的應該是整張打了標簽的圖片,裁剪的圖片的作用是什么?
1)CNN的引數與微調是否有關?
是有關的,原文:為了使CNN適應新的任務(檢測)和新的域(扭曲的區域視窗),我們使用扭曲后的區域繼續對CNN的引數通過隨機梯度下降進行訓練,
微調訓練的部分:CNN、SVM、bounding-box regression,只不過有順序地分別進行
2)有爭議的標簽
訓練CNN:在劃磁區域后,如果某區域與真實框的IoU大于0.5將其認為是對應類的正例(positive),其余是反例,在CNN的每次迭代中,從所有類的所有區域中采樣32個正例,96個反例組成128大小的mini-batch,使用這些資料進行訓練,所以訓練CNN的輸入時各個區域(region proposal),真實框(ground truth box)是來自原影像,(這個從所有類的區域進行采樣的方法被Fast RCNN稱為使用來自不同圖片的區域進行訓練對引數更新是高度低效的,但是還是會訓練CNN,FRCN對采樣方法進行了改進)
在訓練SVM進行分類前,還需要為資料打上標簽,只將真實框認為是每個類的正例,對于與一個類的所有實體的IoU小于0.3的proposal被標記為negative,作者設定了IoU=0.3的閾值,超過則表示可以被打上這個類的標簽(前面這部分打標簽的實際意義我不是特別明白,按我理解是在講正向傳播時候怎么判斷一個區域是不是一個類,就是通過與真實框的IoU是否達到閾值來判斷),核心問題是IoU是與誰相交,原文“正例被簡單定義為每個類的真實框(ground-truth bounding boxes)”,這種說法與前面提取區域后與真實框進行IoU比較的用詞相同(似乎這個問題被我做成了英文閱讀理解),這個真實框應該來自未分割的原圖,也就是說區域通過CNN得到特征,與原圖的真實框進行IoU計算,
上面是前兩天的想法,今天看視頻時候又想到這個問題

這張圖右邊是人工為每個柵格打好的標簽,8維,包含邊界框和目標分類的資訊,這都是已經做好的作業,我們做的是有監督的學習,所以輸入不光只有影像,還有真實值,也就是圖片里的y矩陣,至于y矩陣是從原圖中來還是從每個區域中來,我覺得沒什么區別,要擬合的東西實際上是y矩陣,那么YOLO里的柵格和RCNN的區域建議究竟起什么作用,實際上在圖片生成的一堆區域和柵格中,包含我們需要的最好的一批可以很好地框住目標,我們將這些區域選出來,這些區域的位置也就成為了我們預測的位置,所以所有RCNN里裁剪得到的區域和YOLO里劃分的柵格就是目標位置的候選區域,(至于這些區域、柵格的不準確問題,讓他們通過bounding-box回歸就能更好地描述位置,)因為真實值來自原影像,也就能解釋SVM和bounding-box到底向誰學習,
注:本文已經由作者WXY的同意 若有侵權請聯系我們
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/152870.html
標籤:其他
上一篇:Going deeper with Convolutions-GoogLeNet Inception v1詳細解讀
下一篇:Python和TensorFlow2實作ELMO(Embedding From Language Model)模型,并對原始碼做了一些改進
