【深度學習論文篇 02-1 】YOLOv1論文精讀-有解無憂

原論文鏈接：https://gitee.com/shaoxuxu/DeepLearning_PaperNotes/blob/master/YOLOv1.pdf

筆記版論文鏈接：https://gitee.com/shaoxuxu/DeepLearning_PaperNotes/blob/master/YOLOv1-PaperNotes.pdf

你只需要看一次：統一的、實時的目標檢測

1. 簡介

（1）主要作者簡介：

Joseph Redmon：YOLOv1、YOLOv2、YOLOv3、DarkNet深度學習框架，

Ross Girshick：人稱RGB大神，主要論文有DPM、R-CNN、Fast R-CNN、Faster R-CNN、FPN、Mask R-CNN、RetinaNet、YOLOv1等，

Ali Farhadi：Joseph Redmon在華盛頓大學的導師，

（2）YOLOv1特點：

R-CNN、SPP-Net、Fast R-CNN，Faster R-CNN等都是two-stage目標檢測器，即第一階段生成潛在候選框（Region Proposal）；第二階段用CNN分類器逐一篩選每個候選框，這類網路雖然準確性較好，但速度太慢，很難達到實時檢測（>30FPS）的需求，而YOLO屬于one-stage（單階段）目標檢測器，可以直接端對端的優化檢測性能，通常輸入影像只需要經過一次前向預測就可回歸得到類別和定位資訊，且速度極快，能夠很好地實作實時的目標檢測（YOLO實時最準、Fast YOLO實時最快），

2. 論文思想

2.1 演算法流程

（1）將原圖劃分為S*S網格（grid cell）；

（2）物體的中心點（也即Ground Truth人工標記框的中心點）落到哪個grid cell里，就由該grid cell負責檢測這個物體，且檢測這個物體的bounding box由該grid cell生成；

（3）每個grid cell預測B個bounding box（每個bounding box由5個引陣列成：4個坐標（x, y, w, h）和一個置信度confidence）；

x, y 是bounding box中心點相對于所在grid cell左上角格點的坐標；

w, h 是bounding box相對于整幅影像的寬和高;

bounding box的confidence score定義如下：

Pr(Object)：bounding box是否包含物體，包含為1不包含為0；
IOU：Intersection Over Union，是指bounding box與ground truth的交并比，也就是預測框和真實標記框的交并比，
其乘積就是confidence score的標簽值，對于負責預測的bounding box，Pr=1，這個標簽值就相當于IOU，
注意上述的步驟是訓練階段，而在預測階段是直接回歸得到confidence，不需要計算Pr和IOU，而是隱式地包含了兩者，

（4）B個bounding box中與Ground Truth框的IOU最大的bounding box負責檢測這個物體；

（5）每個grid cell預測C個條件類別概率：Pr(Class_i|Object) ，C表示目標檢測的類別數，Pr(Class_i|Object) 表示確認grid cell內有物體的前提下該物體是某類別的概率；

最終每個bounding box分類的confidence就是上述的Pr(Class_i|Object)與（3）中bounding box置信度預測的乘積：

上式代表每個bounding box中第i個類別的概率，包含物體的分類精度和定位精度，

（6）訓練階段，就是不斷迭代上述步驟，通過監督學習使得損失函式最小化的程序；而預測階段，輸入448*448*3的影像，只需經過一次神經網路，即可輸出7*7*30的張量（包含定位和分類資訊），

2.2 網路結構

該網路模型由24個卷積層+2個全連接層構成，輸入448*448*3的影像，輸出7*7*30的張量，網路中的1*1卷積層，出自Network in network（NiN），在這里的作用是降維，減少權重個數和計算量，

Tips：CNN小知識補充

預訓練：使用大型資料集預先訓練模型的程序，常用預訓練模型有VGG16/19、ResNet50等，

微調：將預訓練過的模型作用于自己的資料集，并使引數適應自己資料集的程序，

卷積神經網路的核心是：

（1）淺層卷積層提取基礎特征，比如邊緣、輪廓等；

（2）深層卷積層提取抽象特征，比如整個臉型；

（3）全連接層根據特征組合進行評分分類，

預訓練模型的特點就是：用大型資料集做訓練，已經具備了提取淺層基礎特征和深層抽象特征的能力，

2.3 預訓練分類網路

在ImageNet 1000-class competition dataset上預訓練了一個分類器，預訓練網路使用圖中前20個卷積 + 1個GAP(Global Average Pooling) + 1個全連接層，網路輸入為224*224大小，

2.4 訓練檢測網路

（1）由于檢測需要細粒度的影像資訊，所以網路輸入由預訓練的224*224改為448*448；

（2）任少卿等人提出在預訓練網路上增加卷積層和全連接層能夠提升性能，所以訓練網路改為上圖所示：24個卷積層 + 2個全連接層；

（3）檢測框的位置資訊（x, y, w, h）都做了歸一化處理；

x, y 是bounding box中心點相對于所在grid cell左上角格點的坐標；

w, h 是相對于整幅影像的寬和高，

（4）使用Leaky ReLU非線性激活函式；

θ(x) = x, x>0

θ(x) = 0.1x, otherwise

（5）使用sum-squared error損失函式；

（6）訓練程序中采用變化的學習率；

最初的epoch，慢慢從10e-3升到10e-2（一上來就10e-2容易造成發散）；

緊接著75個epoch，學習率設為10e-2；

再接下來30個epoch，學習率降為10e-3；

最后30個epoch，學習率將為10e-4，

（7）為了避免過擬合，使用dropout和資料增強，資料增強包括：隨機縮放，20%全圖大小的平移，調整HSV色彩空間，

2.5 損失函式（L2 Loss）

損失函式分五部分，第1、2項為坐標回歸誤差；第3、4項為Confidence（置信度）回歸誤差；第5項為類別預測誤差，即分類誤差，

（1）負責檢測物體的bbox中心定位誤差

此處λ_coord取值為5，而（4）中λ_noobj 取值為0.5，之所以如此設定，是因為影像中有很多grid cell是不包含物體的，這些grid cell中bbox的置信度都為0，這通常會壓制或者說榷訓那些含有包含物體的grid cell的梯度，導致模型不穩定，造成訓練過早發散，所以設定λ_coord= 5，λ_noobj = 0.5，相當于加強bbox坐標預測損失（也就是定位誤差），削弱不包含物體的bbox的置信度損失，

（2）負責檢測物體的bbox寬高定位誤差

式中，使用寬和高的平方根來代替寬和高，是因為在小框里邊小的偏差比在大框里邊影響更大，如下圖示：

（3）負責檢測物體的bbox的confidence誤差

（4）不負責檢測物體的bbox的confidence誤差

（5）負責檢測物體的grid cell的分類誤差

3. YOLOv1的缺陷

（1）小目標檢測差強人意，由于空間的約束導致可預測的目標數量受限，每個grid cell只能預測一個目標，整幅影像最多預測7*7=49個目標；

（2）很難泛化到新的或不常見縱橫比或形狀的目標；

（3）預測框使用了相對較粗粒度的特征（由于存在很多下采樣層），這導致其定位誤差較高；

（4）小框里的小的誤差比在大框里的影響更大，（這個在損失函式的第二項中有相應的優化措施，即用寬高的平方根來代替寬高，個人猜測可能并沒有達到預期效果）

4. 其他一些檢測器的特點

DPM（Deformable parts models）

傳統特征HOG、傳統分類器SVM、滑動視窗方法、彈簧模型：子模型+主模型，

R-CNN 使用region proposals代替sliding window apporoach

選擇性搜索（Selective Search）生成潛在邊界框、卷積網路提取特征、SVM打分、線性模型調整邊界框、NMS非最大值抑制剔除重復檢測框，

Fast R-CNN

相比于R-CNN，做了以下幾點改進

（1）卷積不再是對每個Region Proposal進行，而是直接對整張影像，相當于共享計算；

（2）用ROI Pooling進行特征的尺寸變換，因為全連接層的輸入要求尺寸大小一樣，因此不能把Region Proposal作為輸入；

（3）用SoftMax代替原來的SVM分類器，

Faster R-CNN

核心改進是使用RPN（Region Propose Network）提取區域，代替Selective Search，極大的提升了檢測框的生成速度，

RPN模塊主要執行的流程為輸入Faster R-CNN的公共Feature Map，生成Anchors，通過SoftMax分類器提取Positive Anchors；最后Proposal Layer負責綜合positive anchors和對應bounding box regression偏移量獲取proposals，同時剔除重疊和超出邊界的proposals，

Deep MultiBox

使用卷積神經網路代替Selective Search來預測ROI；但無法進行通用目標檢測，

OverFeat

使用卷積神經網路定位（高效實作了滑窗）；但是其優化的是定位而非檢測性能，且是基于區域來預測的，無法推理全域背景，

MultiGrasp

提出regression方法來預測抓取物體，但它只是一個更簡單的目標檢測任務，只需要預測目標的區域，而不需要預測目標的大小、位置、邊界資訊以及類別，

5. 論文精讀筆記

可以點擊鏈接下載高清原版筆記pdf，論文重點、專有名詞解釋、公式推導、復雜單詞釋義等都有清晰的標注，

參考資料

1、b站子豪兄YOLOv1論文精度（講的特別清晰，建議一看）

2、模型微調fine-tune

3、一文詳解R-CNN、Fast R-CNN、Faster R-CNN

4、讀論文：YOLO

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/458228.html

標籤：其他

上一篇：001_iBase4J學習之環境搭建

下一篇：自己撰寫平滑加權輪詢演算法，實作反向代理集群服務的平滑分配

【深度學習 論文篇 02-1 】YOLOv1論文精讀