Scaled-YOLOv4: Scaling Cross Stage Partial Network 論文翻譯-有解無憂

Scaled-YOLOv4: Scaling Cross Stage Partial Network論文翻譯

- - 摘要
  - 1.介紹
  - 2.相關作業
  - - 2.1 實時檢測器
    - 2.2 模型縮放
  - 3.模型縮放的原則
  - - 3.1 模型縮放的常規原則
    - 3.2 為低端設備縮放tiny模型
    - 3.3 為高端設備縮放Large模型
  - 4. Scaled-YOLOv4
  - - 4.1 CSP-ized YOLOv4
    - 4.2 YOLOv4-tiny
    - 4.3 YOLOv4-large
  - 5.實驗
  - - 5.1 CSP化模型的消融實驗
    - 5.2 YOLOv4-tiny的消融實驗
    - 5.3 YOLOv4-large的消融研究
    - 5.4 用于目標檢測的Scaled-YOLOv4
    - 5.5 Scaled-YOLOv4 是一個簡單的once-for-all 模型
  - 6.結論
  - 參考文獻

論文地址：Scaled-YOLOv4: Scaling Cross Stage Partial Network

摘要

實驗結果表明，基于CSP方法的YOLOv4目標檢測神經網路在保持最優速度和準確率的前提下，具有向上/向下可伸縮性，可用于不同大小的網路，我們提出了一種網路縮放方法，它不僅改變深度、寬度、解析度，而且還改變網路的結構，YOLOv4-large模型實作了SOTA的結果：在Tesla V100上，以15 FPS的速度對MS COCO資料集實作了55.4% AP (73.3% AP50)，而伴隨著TTA，YOLOv4-large實作了55.8% AP (73.2 AP50)，YOLOv4-tiny模型在RTX 2080Ti上以443 FPS的速度實作22.0% AP (42.0% AP50)，而使用TensorRT，batch-size= 4和fp16精度YOLOv4-tiny實作1774 FPS，

1.介紹

基于深度學習的目標檢測技術在我們的日常生活中有著廣泛的應用，例如，醫學影像分析、自動駕駛汽車、商業分析和人臉識別都依賴于物件檢測，上述應用程式所需的計算設施可能是云計算設施、通用GPU、物聯網集群或單個嵌入式設備，為了設計一種有效的目標探測器，模型縮放技術是非常重要的，因為它可以使目標檢測器對各種型別的設備實作高精度和實時推斷，

最常用的模型縮放技術是改變骨干的深度(一個CNN中卷積層的數量)和寬度(一個卷積層中卷積濾波器的數量)，然后訓練適合不同設備的CNN，例如ResNet[10]系列中，ResNet-152和ResNet-101經常用于云服務器gpu, ResNet-50和ResNet-34經常用于個人計算機gpu, ResNet-18和ResNet-10可以用于低端嵌入式系統，在[2]中， Cai等人嘗試開發只需訓練一次即可應用于各種設備網路架構的技術，它們利用解耦訓練、搜索和知識蒸餾等技術對多個子網路進行解耦和訓練，使整個網路和子網路能夠處理目標任務，Tan等人[30]提出使用NAS技術進行復合縮放，包括在EfficientNet-b0上處理寬度、深度和解析度，他們利用這個初始網路搜索給定計算量的最佳CNN架構，將其設為EfficientNet-B1，然后利用線性縮放技術得到EfficientNet-B2到EfficientNet-B7這樣的架構，Radosavovic等[23]從浩瀚的引數搜索空間AnyNet中總結并添加約束，設計了RegNet，在RegNet中，他們發現CNN的最佳深度約為60，他們還發現，當瓶頸比設定為1，跨stage的寬度增加率設定為2.5時，性能最好，另外，最近有專門為目標檢測而提出的NAS和模型縮放方法，如SpineNet[5]和EfficientDet[31]，
通過對目前最先進的目標檢測器[1,3,5,22,31,36,40]的分析，我們發現YOLOv4[1]的主干CSPDarknet53幾乎匹配所有通過網路架構搜索技術得到的最優架構特征，CSPDarknet53的深度、瓶頸比、跨stage寬度生長比分別為65、1和2，因此，我們開發了基于YOLOv4的模型縮放技術，提出了scale -YOLOv4，提出的縮放yolov4具有出色的性能，如圖1所示，scale - yolov4的設計程序如下，首先對YOLOv4進行了重新設計，提出了YOLOv4- csp，然后在YOLOv4- csp的基礎上開發了scale -YOLOv4，在提出的scale - yolov4中，我們討論了線性縮放模型的上界和下界，并分別分析了小模型和大模型縮放時需要注意的問題，因此，我們能夠系統地開發YOLOv4-large和YOLOv4-tiny模型，Scaled-YOLOv4能夠在速度和精度之間實作最好的平衡，能夠在15 fps、30 fps和60 fps的影片以及嵌入式系統上進行實時的檢測，

我們總結了本文的作業：

設計了一種針對小模型的強大的模型縮放方法，系統地平衡了淺層CNN的計算代價和存盤帶寬;
設計一種簡單有效的大型目標檢測器縮放策略;
分析各模型縮放因子之間的關系，基于最優組劃分進行模型縮放;
實驗證實了FPN結構本質上是一種once-for-all結構;
利用上述方法研制了YOLOv4-tiny和YOLO4v4-large，

2.相關作業

2.1 實時檢測器

目標檢測器主要分為 one-stage目標檢測器[24,25,26,18,16,20]和two-stage目標檢測器[9,8,27]，只需一次CNN操作就可以得到one-stage目標檢測器的輸出，對于two-stage目標檢測器，通常將第一階段CNN得到的高磁區域建議輸入到第二階段CNN進行最終預測，one-stage目標檢測器和two-stage目標檢測器的推理時間可以表示為T_one = T_1st和T_two = T1_st + mT₂，其中m為置信分數高于閾值的區域建議的數量，換句話說，one-stage檢測器所需的推理時間是固定的，而two-stage檢測器所需的推理時間不是固定的，所以如果需要實時的檢測器，它們幾乎都是one-stage目標檢測器，目前流行的one-stage目標檢測器主要有兩種：anchor-based[26,16]和anchor-free的[6,12,13,32]，在所有anchor-free方法中，CenterNet[42]非常流行，因為它不需要復雜的后處理，如非最大抑制(NMS)，目前，更準確的實時one-stage目標檢測器是anchor-based的EfficientDet[31]、YOLOv4[1]、PP-YOLO[19]，在本文中，我們開發了基于YOLOv4[1]的模型縮放方法，

2.2 模型縮放

傳統的模型縮放方法是改變模型的深度，即增加更多的卷積層，例如，Simonyan等人設計的VGGNet[28]在不同的階段疊加了額外的卷積層，并使用這個概念設計了vgg11、vgg13、vgg16、vgg19架構，后續的方法通常遵循相同的模型縮放方法，對于He等人提出的ResNet[10]，擴展深度可以構建非常深的網路，如ResNet-50、ResNet-101和ResNet-152，后來Zagoruyko等人[39]考慮到了網路的寬度，他們改變了卷積層核的數量來實作縮放，因此，他們設計了wide ResNet (WRN)，同時保持同樣的精度，雖然WRN的引數量比ResNet大，但推理速度要快得多，隨后的DenseNet[11]和ResNeXt[37]也設計了一個復合縮放版本，將深度和寬度考慮在內，對于影像金字塔推理，在運行時進行增強是一種常用的方法，它取一個輸入影像，做各種不同的解析度縮放，然后輸入這些不同的金字塔組合到一個訓練好的CNN，最后，網路將多組輸出整合為最終結果，Redmon等人[26]使用上述概念來執行輸入影像的大小縮放，他們使用更高的輸入影像解析度來對經過訓練的Darknet53進行微調，執行該步驟的目的是獲得更高的精度，
近年來，網路架構搜索(NAS)相關研究得到大力發展，NASFPN[7]搜索特征金字塔的組合路徑，我們可以把NAS-FPN看作是一種主要在階段級執行的模型縮放技術，對于EfficientNet[30]，它使用了基于深度、寬度和輸入大小的復合縮放搜索 ，EfficientDet[31]的主要設計理念是將具有不同功能的目標檢測器模塊拆解，然后對影像大小、寬度、#BiFPN層、#box/class層進行縮放，另一種采用NAS概念的設計是SpineNet[5]，主要針對fish-shaped目標檢測器的整體架構進行網路架構搜索，這種設計理念最終可以產生一個比例排列的結構，另一種采用NAS設計的網路是RegNet[23]，它主要固定階段數和輸入解析度，將各階段的深度、寬度、瓶頸比、組寬等引數集成為深度、初始寬度、坡度、量化、瓶頸比、組寬，最后，利用這六個引數對復合模型進行尺度搜索，上述方法都是偉大的作業，但很少有方法分析不同引數之間的關系 ，在本文中，我們將根據目標檢測的設計要求，嘗試尋找一種協同復合縮放方法，

3.模型縮放的原則

在對所提出的目標檢測器進行模型縮放后，下一步是處理將發生變化的定量因素，包括帶有定性因素的引數的數量，這些因素包括模型推理時間、平均精度等，根據使用的設備或資料庫，定性因素會有不同的增益效果，我們將在3.1中對定量因素進行分析和設計，在3.2和3.3中，我們將分別設計運行在低端設備和高端gpu上的微型目標檢測器的定性因素，

3.1 模型縮放的常規原則

在設計有效的模型比例方法時，我們的主要原則是當比例上升或下降時，我們想要增加或減少的定量成本越低/越高越好，在本節中，我們將展示和分析各種常見的CNN模型，并試圖了解它們在面對（1）影像大小、（2）層數和（3）通道數量變化時的量化成本，我們選擇的cnn是ResNet、ResNext和Darknet，
對于具有b通道數的k層CNN, ResNet層計算為k?{conv 1 × 1, b/4 – conv
3 × 3, b/4 – conv 1 × 1, b}， ResNext層計算為k?{conv 1 × 1, b/2 – gconv 3 × 3/32, b/2 – conv 1 × 1,b}，對于darknet，計算量為k?{conv 1 × 1, b/2 – conv 3 × 3, b}，將可用于調整影像大小、層數和通道數的縮放因子分別設定為：α, β, 和 γ，當這些比例因子發生變化時，FLOPs的相應變化見表1，(根據上面的描述和EfficientNet的論文，下面的圖應該畫錯了，width和depth位置應該互換)，

由表1可以看出，影像大小、深度和寬度都會導致計算成本的增加，他們分別成二次，線性，二次增長，

Wang等人提出的CSPNet[33]可以應用于各種CNN架構，同時減少了引數和計算量，此外，它還提高了準確性，減少了推理時間，我們把它應用到ResNet, ResNeXt，DarkNet并且發現計算量的變化，如表2所示，

從表2中所示的數字中，我們發現將上述CNN轉換為CSPNet后，新的體系結構可以有效地減少ResNet、ResNeXt和Darknet的計算量（flop），分別減少23.5%、46.7%和50.0%，因此，我們使用CSP-ized模型作為執行模型縮放的最佳模型，

3.2 為低端設備縮放tiny模型

對于低端設備，設計模型的推理速度不僅受到計算量和模型大小的影響，更重要的是必須考慮外圍硬體資源的限制，因此，在執行tiny模型縮放時，我們還必須考慮諸如記憶體帶寬、記憶體訪問成本(MACs)和DRAM流量 等因素，為了考慮到以上因素，我們的設計必須遵循以下原則：
使計算復雜度少于O(whkb²)： 輕量化模型不同于大型模型，輕量化模型的引數利用效率更高，才能在計算量較小的情況下達到所要求的精度，在進行模型縮放時，我們希望計算復雜度盡可能的低，在表3中，我們分析了有效利用引數的網路，如DenseNet和OSANet的計算負荷，
對于常規的CNN，表3中列出的g、b、k之間的關系為k << g < b，因此DenseNet的計算復雜度為O(whgbk)， OSANet的計算復雜度為O(max(whbg, whkg²))，以上兩者的計算復雜度的階數小于ResNet系列的O(whkb²)，因此，我們利用OSANet設計了計算復雜度較小的tiny模型，
最小化/平衡feature map的大小： 為了在計算速度上得到最好的折衷，我們提出了一個新的概念，即在CSPOSANet的計算塊之間進行梯度截斷，如果我們將原來的CSPNet設計應用到DenseNet或ResNet架構上，由于這兩種架構的第j層輸出是第1^st層到第(j-1)^th層輸出的積分，我們必須將整個計算塊作為一個整體來處理，由于OSANet的計算塊屬于PlainNet架構，從計算塊的任意層制作CSPNet都可以達到梯度截斷的效果，我們利用該特性對基層的b通道和計算塊生成的kg通道進行重新規劃，并將其分割為通道數相等的兩條路徑 ，如表4所示，

當通道數量為b + kg時，如果要將這些通道分割成兩條路徑，最好將其分割成相等的兩部分，即(b + kg)/2，當我們實際考慮硬體的帶寬時，如果不考慮軟體優化，最好的值是ceil((b + kg)/2τ) × τ，我們設計的CSPOSANet可以動態調整通道分配，

在卷積后保持相同的通道數： 在評估低端設備的計算成本時，還必須考慮功耗，影響功耗的最大因素是記憶體訪問成本(MAC)，通常一個卷積運算的MAC計算方法如下：

其中h, w, C_in, C_out, K分別表示feature map的高度和寬度，輸入和輸出的通道數，卷積濾波器的核大小，通過計算幾何不等式，可以推匯出C_in = C_out時的最小MAC，

最小化卷積輸入/輸出(CIO)： CIO是一個可以測量DRAM IO狀態的指標，表5列出了OSA、CSP和我們設計的CSPOSANet的CIO，當kg > b/2時，CSPOSANet可以獲得最佳的CIO，

3.3 為高端設備縮放Large模型

由于我們希望在對CNN模型進行縮放后提高準確性并保持實時推理速度，所以在進行復合縮放時，必須在目標檢測器眾多的縮放因子中找到最佳的組合，通常，我們可以調整目標檢測器的輸入、backbone和neck的比例因子，表6總結了可以調整的潛在縮放因子，
影像分類與目標檢測最大的區別在于，前者只需要識別影像中最大成分的類別，而后者需要預測影像中每個目標的位置和大小，在one-stage目標檢測器中，利用每個位置對應的特征向量來預測該位置的目標類別和大小，更好地預測物體大小的能力基本上取決于特征向量的感受野，在CNN的架構中，與感受野最直接相關的是stage， feature pyramid network (FPN)的架構告訴我們，更高的stage更適合預測大的物體，表7說明了感受野與幾個引數之間的關系，
從表7可以看出，寬度縮放可以獨立操作，當輸入影像尺寸增大時，要想對大物件有更好的預測效果，就必須增大網路的depth或stage的數量，在表7中列出的引數中，{size^input， #stage}的組合效果最好，因此，當執行縮放時，我們首先在size^input，#stage上執行復合縮放，然后根據實時的環境，我們再分別進一步縮放深度depth和寬度width，

4. Scaled-YOLOv4

在本節中，我們將重點放在為一般gpu、低端gpu和高端gpu設計縮放YOLOv4上，

4.1 CSP-ized YOLOv4

YOLOv4是為通用GPU上的實時目標檢測而設計的，在本節中，我們將YOLOv4重新設計為YOLOv4- csp，以獲得最佳的速度/精度權衡，
Backbone： 在CSPDarknet53的設計中，跨stage處理的下采樣卷積計算不包括在殘差塊中，因此，我們可以推斷CSPDarknet每個階段的計算量為whb²(9/4+3/4+5k/2)，由上式可知，只有當k>1時，CSPDarknet的stage比Darknet的stage具有更好的計算優勢，SPDarknet53中每個階段擁有的殘差層數分別為1-2-8-8-4，為了獲得更好的速度/精度權衡，我們將第一個CSP階段轉換為原始的DarkNet的殘差層，

Neck： 為了有效地減少計算量，我們將CSP結構融合到YOLOv4中的PAN體系結構，PAN體系結構的計算串列如圖2(a)所示，它主要整合來自不同特征金字塔的特征，然后通過兩組反向的DarkNet殘差層，沒有shortcut連接，經過csp化，新的計算串列的架構如圖2(b)所示，這個新的更新有效地減少了40%的計算量，

SPP： SPP模塊最初是插入在neck第一個計算串列組的中間位置，因此，我們也將SPP模塊插入到CSPPAN的第一個計算串列組的中間位置，

4.2 YOLOv4-tiny

YOLOv4-tiny是為低端GPU設備設計的，設計將遵循3.2節中提到的原則，

我們將使用PCB架構的CSPOSANet來構成YOLOv4的主干，我們設g = b/2為增長率，最終使其增長到b/2 + kg = 2b，通過計算，我們得到k = 3，其結構如圖3所示，對于每個階段的通道數量和neck部分，我們采用YOLOv3-tiny的設計，

4.3 YOLOv4-large

YOLOv4-large是為云GPU設計的，主要目的是實作高精度的目標檢測，我們設計了一個完全csp化的模型YOLOv4-P5，并將其擴展到YOLOv4-P6和YOLOv4-P7，
YOLOv4- p5、YOLOv4- P6、YOLOv4- p7的結構如圖4所示，我們設計在size^input， #stage上執行復合縮放，我們將每個stage的depth尺度設定為2^dsi, ds設定為[1,3,15,15,7,7,7]，最后，我們進一步使用推斷時間作為約束來執行額外的寬度縮放，實驗表明，當寬度縮放因子為1時，YOLOv4-P6可以在30幀/秒的視頻中達到實時性能，對于YOLOv4-P7來說，當寬度縮放因子等于1.25時，它可以在15 fps的視頻中達到實時性能，

5.實驗

我們使用MSCOCO 2017目標檢測資料集對提出的 scaled-YOLOv4進行驗證，
我們沒有使用ImageNet預訓練的模型，所有的scaled-YOLOv4模型都是從頭開始訓練的，采用的工具是SGD優化器，訓練YOLOv4-tiny的時間是600 epoch，訓練YOLOv4-CSP的時間是300 epoch，對于YOLOv4-large，我們先執行300個epoch，然后使用更強的資料增強方法訓練150個epoch，對于拉格朗日乘子的超引數，如錨點，學習率、不同程度的資料增強方法，我們采用k-means和遺傳演算法來確定，所有與超引數相關的細節在附錄中詳細說明(雖然目前論文還沒有看到有附錄，，)，

5.1 CSP化模型的消融實驗

在本節中，我們將對不同的模型進行CSP化，并分析CSP化對引數數量、計算量、吞吐量和平均精度的影響，我們使用Darknet53（D53）作為主干，并選擇帶SPP的FPN（FPNSPP）和帶SPP的PAN（PANSPP）來設計消融研究，表8中我們列出了對不同DNN模型進行csp化后的AP_val結果，我們分別使用LeakyReLU (Leaky)和Mish激活函式來比較使用的引數、計算量和吞吐量，實驗均在COCO minval dataset上進行，得到的APs如表8最后一列所示，
從表8中列出的資料可以看出，csp化的模型大大減少了32%的引數量和計算量，并且在Batch 8吞吐量和AP方面都有了提高，在CSP化之后，如果想要保持相同的幀率，需要添加更多的層數或者使用更先進的激活函式，從表8所示的圖中可以看出， CD53s-CFPNSPP-Mish和CD53sCPANSPP-Leaky具有與D53-FPNSPP-Leaky相同的Batch 8吞吐量，但在計算資源較低的情況下，它們分別提高了1%和1.6%的AP(我看圖明明是提升了2.8%和3.4%呀，，)，從上面的改進圖中，我們可以看到模型csp化帶來的巨大優勢，因此，我們決定使用表8中AP最高的CD53s-CPANSPP-Mish作為YOLOv4-CSP的主干，

5.2 YOLOv4-tiny的消融實驗

在這一小節中，我們設計了一個實驗來展示如果在計算塊中使用帶有 partial函式的CSPNet可以有多靈活，我們還與CSPDarknet53進行了比較，后者在寬度和深度上進行了線性縮小，結果見表9，

從表9的圖中可以看出，設計的PCB技術可以使模型更加靈活，因為這樣的設計可以根據實際需要進行調整，從以上結果，我們也證實了線性縮放確實有其局限性，很明顯，在有限的運行條件下，tinyCD53s的殘差添加成為推理速度的瓶頸，因為在相同的計算量下，tinyCD53s的幀速率遠低于COSA架構 ，同時，我們也看到本文提出的COSA可以獲得更高的AP，因此，我們最終選擇了在我們的實驗中速度/精度權衡最好的COSA-2x2x作為YOLOv4-tiny架構，

5.3 YOLOv4-large的消融研究

表10展示了YOLOv4模型在從零開始訓練和微調階段獲得的AP，

5.4 用于目標檢測的Scaled-YOLOv4

與其他實時目標檢測檢測器進行比較，結果如表11所示，[AP, AP50, AP75, APS, APM, APL]項中粗體標記的值表明模型在相應項中表現最好，我們可以看到，所有規模的YOLOv4模型，包括YOLOv4- csp, YOLOv4- p5, YOLOv4- p6, YOLOv4- P7，在所有指標上都是最優的，當我們將YOLOv4-CSP與同樣精度的EfficientDet-D3 (47.5% vs 47.5%)進行比較時，推理速度是1.9倍，YOLOv4-P5與EfficientDet-D5比較，兩者精度相同(51.4% vs 51.5%)，推理速度是2.9倍，類似于YOLOv4-P6與EfficientDet- D7 (54.3% vs 53.7%)和YOLOv4-P7與EfficientDet-D7x (55.4% vs 55.1%)的比較，在這兩種情況下，YOLOv4-P6和YOLOv4-P7的推理速度分別快了3.7倍和2.3倍，所有的yolov4模型都達到了最先進的效果，

yolov4大模型的測驗時間增加(TTA)實驗結果見表12，應用TTA后，YOLOv4- P5、YOLOv4- p6和YOLOv4- p7分別上漲1.1%、0.6%和0.4%，

然后我們將YOLOv4-tiny與其他tiny目標檢測器的性能進行比較，結果如表13所示，很明顯，YOLOv4-tiny在與其他tiny模型的比較中獲得了最好的性能，
最后，我們將YOLOv4-tiny放在不同的嵌入式gpu上進行測驗，包括Xavier AGX, Xavier NX, Jetson TX2, Jetson NANO，我們還使用TensorRT FP32(如果支持FP16)進行測驗，表14列出了不同模型得到的所有幀率，可以看出，無論使用哪種設備，YOLOv4-tiny都可以實作實時性能，如果我們采用FP16和batch size 4來測驗Xavier AGX和Xavier NX，幀率可以分別達到380fps和199fps，另外，如果使用TensorRT FP16在通用GPU RTX 2080ti上運行YOLOv4-tiny，當批處理大小分別為1和4時，各自的幀率可以達到773fps和1774fps，非常快，

5.5 Scaled-YOLOv4 是一個簡單的once-for-all 模型

在本小節中,我們設計實驗表明FPN-like架構是一個簡單的 once-for-all 模型，我們洗掉了YOLOv4-P7的一些自頂向下路徑和檢測分支，YOLOv4-P7\P7和YOLOv4-P7\P7 \P6表示已經從訓練好的YOLOv4-P7中移除{P7}和{P7, P6}階段的模型，圖5顯示了在不同的輸入解析度下，經過修剪的模型與原始YOLOv4-P7之間的AP差異，

我們可以發現YOLOv4-P7在高解析度下的AP最好，而YOLOv4-P7\P7和YOLOv4-P7\P7\P6在中、低解析度下的AP最好，這意味著我們可以使用FPN-like模型的子網路來很好地執行目標檢測任務，此外，我們還可以對目標檢測器的模型結構和輸入大小進行復合縮小，以獲得最佳性能，

6.結論

實驗表明，基于CSP方法的YOLOv4目標檢測神經網路具有可伸縮性和可伸縮性，適用于大小網路，因此，我們使用TensorRT-FP16在RTX 2080Ti上為YOLOv4-large模型在test-dev COCO資料集上實作了最高的精度55.8% AP，為小模型YOLOv4-tiny實作了極高的速度1774 FPS，并為其他YOLOv4模型實作了最佳的速度和精度，

參考文獻

[1] Alexey Bochkovskiy, Chien-Yao Wang, and HongYuan Mark Liao. YOLOv4: Optimal speed and accuracy of
object detection. arXiv preprint arXiv:2004.10934, 2020. 2,
7
[2] Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, and
Song Han. Once-for-all: Train one network and specialize it
for efficient deployment. arXiv preprint arXiv:1908.09791,
2019. 1
[3] Jiale Cao, Hisham Cholakkal, Rao Muhammad Anwer, Fahad Shahbaz Khan, Yanwei Pang, and Ling Shao. D2Det:
Towards high quality object detection and instance segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 11485–11494,
2020. 2
[4] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong
Zhang, Han Hu, and Yichen Wei. Deformable convolutional
networks. In Proceedings of the IEEE international conference on computer vision, pages 764–773, 2017. 7
[5] Xianzhi Du, Tsung-Yi Lin, Pengchong Jin, Golnaz Ghiasi,
Mingxing Tan, Yin Cui, Quoc V Le, and Xiaodan Song.
SpineNet: Learning scale-permuted backbone for recognition and localization. arXiv preprint arXiv:1912.05027,
2019. 2, 7
[6] Kaiwen Duan, Song Bai, Lingxi Xie, Honggang Qi, Qingming Huang, and Qi Tian. CenterNet: Keypoint triplets for
object detection. In Proceedings of the IEEE International
Conference on Computer Vision (ICCV), pages 6569–6578,
2019. 2
[7] Golnaz Ghiasi, Tsung-Yi Lin, and Quoc V Le. NAS-FPN:
Learning scalable feature pyramid architecture for object detection. In Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition (CVPR), pages 7036–7045,
2019. 2
[8] Ross Girshick. Fast R-CNN. In Proceedings of the IEEE
International Conference on Computer Vision (ICCV), pages
1440–1448, 2015. 2
[9] Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra
Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition
(CVPR), pages 580–587, 2014. 2
[10] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.
Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition (CVPR), pages 770–778, 2016. 1, 2, 7
[11] Gao Huang, Zhuang Liu, Laurens Van Der Maaten, and Kilian Q Weinberger. Densely connected convolutional networks. In Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition (CVPR), pages 4700–4708,
2017. 2
[12] Hei Law and Jia Deng. CornerNet: Detecting objects as
paired keypoints. In Proceedings of the European Conference on Computer Vision (ECCV), pages 734–750, 2018. 2
[13] Hei Law, Yun Teng, Olga Russakovsky, and Jia Deng.
CornerNet-Lite: Efficient keypoint based object detection.
arXiv preprint arXiv:1904.08900, 2019. 2
[14] Youngwan Lee and Jongyoul Park. CenterMask: Real-time
anchor-free instance segmentation. In Proceedings of the
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020. 7
[15] Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, ′
Bharath Hariharan, and Serge Belongie. Feature pyramid
networks for object detection. In Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition
(CVPR), pages 2117–2125, 2017. 7
[16] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and
Piotr Dollar. Focal loss for dense object detection. In ′ Proceedings of the IEEE International Conference on Computer
Vision (ICCV), pages 2980–2988, 2017. 2, 7
[17] Songtao Liu, Di Huang, and Yunhong Wang. Learning spatial fusion for single-shot object detection. arXiv preprint
arXiv:1911.09516, 2019. 7
[18] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian
Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander C
Berg. SSD: Single shot multibox detector. In Proceedings
of the European Conference on Computer Vision (ECCV),
pages 21–37, 2016. 2
[19] Xiang Long, Kaipeng Deng, Guanzhong Wang, Yang Zhang,
Qingqing Dang, Yuan Gao, Hui Shen, Jianguo Ren, Shumin
Han, Errui Ding, et al. PP-YOLO: An effective and efficient implementation of object detector. arXiv preprint
arXiv:2007.12099, 2020. 2, 7
[20] Siyuan Qiao, Liang-Chieh Chen, and Alan Yuille. DetectoRS: Detecting objects with recursive feature pyramid and switchable atrous convolution. arXiv preprint
arXiv:2006.02334, 2020. 2
[21] Zheng Qin, Zeming Li, Zhaoning Zhang, Yiping Bao, Gang
Yu, Yuxing Peng, and Jian Sun. ThunderNet: Towards realtime generic object detection. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2019.
8
[22] Han Qiu, Yuchen Ma, Zeming Li, Songtao Liu, and Jian Sun.
BorderDet: Border feature for dense object detection. arXiv
preprint arXiv:2007.11056, 2020. 2
[23] Ilija Radosavovic, Raj Prateek Kosaraju, Ross Girshick,
Kaiming He, and Piotr Dollar. Designing network design ′
spaces. In Proceedings of the IEEE/CVF Conference on
Computer Vision and Pattern Recognition, pages 10428–
10436, 2020. 1, 3
[24] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali
Farhadi. You only look once: Unified, real-time object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 779–
788, 2016. 2
[25] Joseph Redmon and Ali Farhadi. YOLO9000: better, faster,
stronger. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 7263–
7271, 2017. 2
[26] Joseph Redmon and Ali Farhadi. YOLOv3: An incremental
improvement. arXiv preprint arXiv:1804.02767, 2018. 2, 7, 8
[27] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun.
Faster R-CNN: Towards real-time object detection with region proposal networks. In Advances in Neural Information Processing Systems (NIPS), pages 91–99, 2015. 2
[28] Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv
preprint arXiv:1409.1556, 2014. 2
[29] Guanglu Song, Yu Liu, and Xiaogang Wang. Revisiting the sibling head in object detector. In Proceedings of
the IEEE/CVF Conference on Computer Vision and Pattern
Recognition, pages 11563–11572, 2020. 7
[30] Mingxing Tan and Quoc V Le. EfficientNet: Rethinking
model scaling for convolutional neural networks. In Proceedings of International Conference on Machine Learning
(ICML), 2019. 1, 2, 7
[31] Mingxing Tan, Ruoming Pang, and Quoc V Le. EfficientDet:
Scalable and efficient object detection. In Proceedings of the
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020. 2, 7
[32] Zhi Tian, Chunhua Shen, Hao Chen, and Tong He. FCOS:
Fully convolutional one-stage object detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 9627–9636, 2019. 2
[33] Chien-Yao Wang, Hong-Yuan Mark Liao, Yueh-Hua Wu,
Ping-Yang Chen, Jun-Wei Hsieh, and I-Hau Yeh. CSPNet: A
new backbone that can enhance learning capability of CNN.
Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition Workshop (CVPR Workshop), 2020.
3, 8
[34] Jiaqi Wang, Wenwei Zhang, Yuhang Cao, Kai Chen, Jiangmiao Pang, Tao Gong, Jianping Shi, Chen Change Loy, and
Dahua Lin. Side-aware boundary localization for more precise object detection. In European Conference on Computer
Vision, pages 403–419. Springer, 2020. 7
[35] Shaoru Wang, Yongchao Gong, Junliang Xing, Lichao
Huang, Chang Huang, and Weiming Hu. RDSNet: A new
deep architecture for reciprocal object detection and instance
segmentation. arXiv preprint arXiv:1912.05070, 2019. 7
[36] Xinjiang Wang, Shilong Zhang, Zhuoran Yu, Litong Feng,
and Wayne Zhang. Scale-equalizing pyramid convolution
for object detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages
13359–13368, 2020. 2
[37] Saining Xie, Ross Girshick, Piotr Dollar, Zhuowen Tu, and ′
Kaiming He. Aggregated residual transformations for deep
neural networks. In Proceedings of the IEEE Conference
on Computer Vision and Pattern Recognition (CVPR), pages
1492–1500, 2017. 2
[38] Lewei Yao, Hang Xu, Wei Zhang, Xiaodan Liang, and Zhenguo Li. SM-NAS: Structural-to-modular neural architecture
search for object detection. In Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2020. 7
[39] Sergey Zagoruyko and Nikos Komodakis. Wide residual networks. arXiv preprint arXiv:1605.07146, 2016. 2
[40] Hongkai Zhang, Hong Chang, Bingpeng Ma, Naiyan Wang,
and Xilin Chen. Dynamic R-CNN: Towards high quality object detection via dynamic training. arXiv preprint
arXiv:2004.06002, 2020. 2
[41] Shifeng Zhang, Cheng Chi, Yongqiang Yao, Zhen Lei, and
Stan Z Li. Bridging the gap between anchor-based and
anchor-free detection via adaptive training sample selection.
In Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition (CVPR), 2020. 7
[42] Xingyi Zhou, Dequan Wang, and Philipp Krahenb ¨ uhl. Ob- ¨
jects as points. In arXiv preprint arXiv:1904.07850, 2019.2

一些不重要的話.
其實之前筆者就有關注這個專案，而且這個模型已經在MS COCO資料集登頂至少好幾周了，之前所有的實驗和結果都在WongKinYiu/PyTorch_YOLOv4專案里面(記得當時測了一下里面的YOLOv4_pacsp，速度也一般，不過是要比原YOLOV4快)，現在分離出來了WongKinYiu/ScaledYOLOv4，其實整個專案就是用ultralytics/yolov5的代碼(里面也包含很多tricks，例如新的邊框回歸，EMA，CIOU LOSS, 資料增強等)，然后按照以前YOLOV4的結構，在neck部分添加了CSP結構，又重新設計了P5/6/7三個網路結構，達到了SOTA，雖然還是牛，畢竟SOTA，但感覺論文寫的很趕，好多地方有點沒講清楚，模型縮放也沒有EfficientNet講的清楚，附錄也還沒有，具體訓練細節也看不到，感覺就是想先把自己的SOTA結果發表出來寫的論文，，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/225435.html

標籤：其他

上一篇：常用寶藏網站

下一篇：51單片機專案設計：51單片機藍牙小車制作教程，新手必做！（手機控制前后左右行走）