CVPR2020 Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector論文翻譯-有解無憂

CVPR2020 Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector論文翻譯

- - 摘要
  - 1.介紹
  - 2.相關作業
  - 3. FSOD:一個高度多樣化的few-shot物件檢測資料集
  - 4.本文方法
  - - 4.1 問題定義
    - 4.2 深度關注的few-shot檢測
    - - 4.2.1 基于注意力的RPN
      - 4.2.2 多關系檢測器
    - 4.3 雙向對比訓練策略
  - 5.實驗
  - - 5.1 訓練細節
    - 5.2 與SOTA方法的比較
    - - 5.2.1 ImageNet檢測資料集
      - 5.2.2 MS COCO資料集
    - 5.3 現實中的應用
    - 5.4 更多的類別 vs 更多的樣本？
  - 6. 結論
  - 附錄A：多關系檢測器的實作細節
  - 附錄B：更多的實作細節
  - - B.1. 訓練和微調細節
    - B.2. 評估細節
  - 參考文獻

論文地址： Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

摘要

傳統的目標檢測方法通常需要大量的訓練資料，而準備這樣高質量的訓練資料是具有很大勞動成本的，在本文中，我們提出了一種新的Few-Shot目標檢測網路，旨在檢測不可見類別的，只有少量標簽的目標，該方法的核心是我們的Attention-RPN、Multi-Relation Detector和Contrastive Training strategy(對比訓練策略)，利用Few-Shot支持集和查詢集之間的相似性來檢測新的目標，同時抑制背景中的假檢測，為了訓練我們的網路，我們貢獻了一個新的資料集，其中包含1000個帶有高質量注解的不同類別的物件，據我們所知，這是第一個專門為Few-Shot目標檢測設計的資料集，一旦我們的Few-Shot網路被訓練，它可以檢測不可見類別的目標不需要進一步的訓練或微調，該方法具有廣泛的應用前景，我們生產一個新的最先進的性能在不同的資料集在Few-Shot設定，資料集鏈接是https://github.com/fanq15/Few-Shot-ObjectDetection-Dataset
在這里插入圖片描述

1.介紹

現有的目標檢測方法通常嚴重依賴于大量的注釋資料，并且需要很長的訓練時間，這激發了最近發展的Few-Shot目標檢測，Few-Shot學習是一個挑戰，現實生活的目標照明，形狀，紋理等有著很大的變化，[1,2,3,4,5,6,7,8]雖然已經取得了重要的研究和進展，但這些方法都專注于影像分類，很少涉及到few-shot目標檢t測問題，這可能是因為從few-shot分類到few-shot目標檢測的轉換是一項艱巨的任務，
目標檢測的核心問題是如何在雜亂的背景下定位一個看不見的物體，事后看來，這是一個很普遍的目標定位問題，它來自于一些新類別的注釋例子，潛在的邊框很容易錯過看不見的物體，或者在背景中產生許多錯誤的檢測，我們認為這是由于區域建議網路(RPN)輸出的良好邊框分數偏低，使得新物件難以被檢測到，這使得few-shot目標檢測與few-shot分類有著本質的不同，另一方面，最近關于few-shot目標檢測的研究[9,10,11,12]都需要進行微調，因此不能直接應用于新的類別，
在本文中，我們針對的是few-shot目標檢測問題:給定一些新的目標物件的支持影像，我們的目標是檢測出測驗集中所有屬于目標物件類別的前景目標，如圖1所示，為此目的，我們提出兩項主要貢獻:

首先，我們提出了一個通用的few-shot目標檢測模型，該模型可以用于檢測新的目標，而無需再訓練和微調，該方法通過精心設計的對比訓練策略、RPN上的注意力模塊和檢測器，利用權值共享網路中多個網路階段目標對之間的匹配關系，
這使得我們的模型可以在線檢測新類別的物件，而不需要進行良好的訓練或進一步的網路自適應，實驗表明，我們的模型可以受益于早期階段的注意力模塊，在此階段提案質量顯著提高，最后一個階段中的多關系檢測器模塊在混亂的背景中抑制和過濾假檢測，在few-shot設定下，我們的模型在ImageNet檢測資料集和MS COCO資料集上取得了SOTA的表現，
第二個貢獻由一個帶有1000個類別的大型注釋資料集組成，每個類別只有幾個例子，總的來說，我們的方法使用該資料集取得了比現有的大規模資料集，如COCO[13] 更顯著的性能，據我們所知，這是首批擁有空前數量的目標類別(1000個)的 few-shot目標檢測資料集之一，使用該資料集，我們的模型在不同資料集上取得了更好的性能，甚至不需要任何微調，

2.相關作業

通用目標檢測： 目標檢測是計算機視覺中的一個經典問題，在早期，目標檢測通常被表述為一個使用手工制作特征的滑動視窗分類問題[14,15,16]，隨著[17]深度學習的興起，基于cnn的方法成為主要的目標檢測解決方案，大多數方法可以進一步分為兩種一般的方法:無提案檢測器和基于提案檢測器，第一種方法遵循一個階段的培訓策略，并不明確生成候選框[18,19,20,21，22]，另一方面，由RCNN[23]首創的第二中方法，首先從給定影像中提取潛在物件的類不可知區域建議，然后這些邊框被進一步細化，并通過特定的模塊劃分為不同的類別[24,25,26,27]，這種策略的一個優點是它可以通過RPN模塊過濾掉許多負樣本，從而方便下一步的檢測任務，為此，基于rpn的方法通常比無提案的方法性能更好，有著檢測任務的SOTA[27]，然而，上述方法具有很強的監督作用，僅憑幾個例子很難擴展到新的范疇，
Few-shot learning： 在經典的場景中Few-shot learning[28]是對傳統機器學習演算法的挑戰，從僅僅幾個訓練例子學習，早期的作業試圖學習一個通用的先驗[29、30、31、32、33)，如可以跨類別共享的hand-designed strokes或parts，一些研究[1,34,35,36]集中在手工設計不同類別之間的距離公式時的度量學習，最近的趨勢是設計一個總代理/策略，在每個任務中指導監督式學習；通過知識的積累，網路可以捕捉到不同任務之間的結構變化，這個研究方向一般稱為元學習[2,5,37,38,39]，在這一領域，[37]提出了一個由雙網路共享權值組成的連體網路，其中每個網路分別被一個支持影像和一個查詢作為輸入，查詢與其支持之間的距離自然是通過邏輯回歸得到的，這種匹配策略捕獲了支持和查詢之間固有的變化，而不管它們的類別是什么，在匹配框架領域，后續作業[3、4、6、8、10、40]有一個方向是構建記憶體模塊捕獲全域背景關系的支持來重點加強特征向量，許多著作[41,42]利用區域描述符從有限的資料中獲取額外的知識，在[43,44]中，作者引入了圖神經網路(GNN)來建模不同類別之間的關系，在[45]中，通過遍歷給定的整個支持集來識別與任務相關的特征，從而使高維空間的度量學習更加有效，其他作業，如[2,46]，致力于學習總代理來指導引數優化，到目前為止，few-shot learning還沒有取得突破性的進展，主要集中在分類任務上，很少有其他重要的計算機視覺任務，如語意分割[47,48,49]、人體運動預測[50]、目標檢測[9]等，在[51]中使用未標記資料，在無框影像上交替優化多個模塊，但是，這種方法可能會被錯誤的檢測和弱監督所誤導，需要重新對新的類別進行訓練，在LSTD[9]中，作者提出了一種新的few-shot的目標檢測框架，通過最小化源域和目標域之間的分類后驗概率差距，將知識從一個大資料集轉移到另一個小資料集，然而，這種方法強烈地依賴于源域，并且很難擴展到非常不同的場景，最近，其他幾個關于few-shot檢測的作業[9,10,11,12]也被提出，但它們學習特定類別的特征向量，并需要針對新的類別進行微調，
我們的作業是由匹配網路[37]開創的研究路線推動的，我們提出了一個通用的few-shot目標檢測網路，該網路基于Faster R-CNN框架，采用我們的新注意力RPN和使用我們的對比訓練策略訓練的多關系檢測器來學習影像對之間的匹配度量，

3. FSOD:一個高度多樣化的few-shot物件檢測資料集

few-shot learning的關鍵在于相關模型在呈現新類別時的泛化能力，因此，一個具有大量目標類別的高多樣性資料集對于訓練一個能夠檢測不可見目標的通用模型以及執行令人信服的評估是必要的，然而，現有的資料集[13,52,53,54,55]包含的類別非常有限，并沒有在few-shot評估設定中進行設計，因此，我們建立了一個新的few-shot目標檢測資料集，

資料集建設. 我們從現有的用于監督學習的大規模目標檢測資料集構建我們的資料集，即[54,56]，然而，這些資料集不能直接使用，原因在于:

不同資料集的標簽系統是不一致的，一些有著相同語意的目標由不同的詞注釋，
由于不準確和缺少標簽、重復的框、物件太大，現有注釋的很大一部分是有噪聲的，
它們的train/test分割包含相同的類別，而對于few-shot的設定，我們希望train/test集合包含不同的類別，以便評估其在不可見類別上的通用性，

為了開始構建資料集，我們首先從[54,56]中總結一個標簽系統，通過將具有相同語意(如北極熊和冰熊)的子標簽分組到一個類別中，并去除不屬于任何子類別的語意，我們將原始標簽系統中的子標簽合并到一起，然后去除標簽質量差的影像和邊框尺寸不合適的影像，具體來說，被移除的影像的方框小于影像尺寸的0.05%，通常視覺質量很差，不適合作為支持的示例，接下來，我們按照few-shot學習設定，將我們的資料分為訓練集和測驗集，沒有重疊的類別，我們在MS COCO資料集[13]中構建了帶有類別的訓練集，以滿足案例研究者更喜歡預訓練階段，然后我們通過選擇距離最大的類別與現有訓練類別進行分割，分離了包含200個類別的測驗集，其中距離是在is-a分類法[57]中連接兩個語意的最短路徑，剩下的分類合并到訓練集中，訓練集中總共有800個分類，總之，我們構建了一個包含1000個分類的資料集，對分類進行明確的分離，用于訓練和測驗，其中531個分類來自ImageNet資料集[56]，469個分類來自開放影像資料集[54]，
在這里插入圖片描述

資料集分析. 我們的資料集是專門為few-shot學習和評估模型在新類別上的通用性而設計的，其中包含1000個類別，訓練集和測驗集分別使用800/200分割，約66,000幅影像和182,000個邊框，具體統計如表1、圖3所示，我們的資料集有以下屬性：
類別的高度多樣性: 我們的資料集包含83個父語意，如哺乳動物、服裝、武器等，進一步分解為1000個子類，我們的標簽樹如圖2所示，由于我們嚴格的資料集分割，我們的訓練/測驗集包含非常不同語意類別的影像，因此對要評估的模型提出了挑戰，
在這里插入圖片描述
具有挑戰性的設定: 我們的資料集目標框大小和縱橫比有著很大的方差, 26.5%不少于三個目標的影像組成測驗集，我們的測驗集包含大量不在我們的標簽系統的邊框類別，因此對于few-shot模型提出巨大挑戰，
雖然我們的資料集類別較多，但訓練影像和邊框的數量遠遠少于MS COCO dataset等其他大型基準資料集，后者包含123,287幅影像和大約886,000個邊框，我們的資料集被設計成緊湊而有效的few-shot學習，

4.本文方法

在本節中，我們首先定義我們的任務是few-shot檢測，然后詳細描述我們的新穎的few-shot目標檢測網路，

4.1 問題定義

給定一個帶有目標物件特寫的支持影像s_c和一個可能包含支持類別c物件的查詢影像q_c，任務是在查詢中找到屬于該支持類別的所有目標物件，并使用緊密邊界框標記它們，如果支持集合包含N個類別，每個類別有K個例子，這個問題被稱為N-way K-shot檢測，

4.2 深度關注的few-shot檢測

在這里插入圖片描述

我們提出了一種新的注意力網路，學習支持集和RPN模塊和檢測器上的查詢之間的綜合匹配關系，圖4顯示了我們網路的總體架構，具體來說，我們構建一個由多個分支組成的權重共享框架，其中一個分支用于查詢集，其他分支用于支持集 (為了簡單起見，我們在圖中只顯示了一個支持分支)，權值共享框架的查詢分支是一個Faster R-CNN網路，它包含了RPN和檢測器，我們利用該框架訓練支持特征與查詢特征之間的匹配關系，使網路能夠學習同一類別之間的共性知識，在該框架的基礎上，我們引入了一種具有多關系模塊的注意RPN和檢測器，以實作查詢中支持框和潛在框之間的精確決議，

4.2.1 基于注意力的RPN

在few-shot目標檢測中，RPN在生成潛在相關的方框以促進后續檢測任務方面非常有用，具體來說，RPN不僅要區分物件和非物件，還要過濾掉不屬于支持類別的負面物件，然而，在沒有任何支持影像資訊的情況下，RPN即使不屬于支持類別，也會在每一個objectness score較高的潛在目標中漫無目的地活動，從而給后續檢測器的分類任務帶來大量不相關物件的負擔，為了解決這個問題，我們提出了attention RPN(圖5)，它使用支持資訊來過濾掉大多數背景框和那些不匹配類別的框，因此，生成的候選建議集更小、更精確，具有包含目標物件的高潛力，
在這里插入圖片描述
我們通過注意力機制引入支持資訊來引導RPN來生成相關的區域候選并且抑制其他類別的區域候選，具體地說，我們以depth-wise的方式計算支持特征圖與查詢度特征圖之間的相似度，然后利用相似度來構建提案生成，特別地，我們將支持特征表示為X ∈ t^S×S×C，將查詢的特征映射表示為Y ∈ t^H×W×C，相似度定義為：
在這里插入圖片描述
G是合成的注意力特征圖，這里使用支持特征X作為內核，以 depth-wise cross correlation方式[60]在查詢特征圖上滑動[58,59]，在我們的作業中，我們在RPN模型中采用了頂層的特征，即ResNet50中的res4_6，我們發現，在我們的例子中，S = 1的內核大小執行得很好，這一事實與[25]一致，即全域特征可以為物件分類提供一個良好的優先物件，在我們的例子中，內核是通過對支持特性圖求平均值來計算的，注意圖先經過3x3卷積處理，然后是objectness分類層和邊框回歸層，與[25]一樣，注意RPN和損失L_rpn與網路聯合訓練，

4.2.2 多關系檢測器

在R-CNN框架中，RPN模塊后面跟著一個檢測器，它的重要作用是重新評分提案和分類回歸，因此，我們希望一個檢測器具有較強的辨別能力，能夠區分不同的類別，為此，我們提出了一種新的多關系檢測器，可以有效地測量查詢中建議框與支持目標之間的相似度，如圖6所示，檢測器模塊包括三個注意力模塊，分別是 global-relation head 來學習全域匹配的深度嵌入，local-correlation head學習支持和查詢建議的pixel-wise和depth-wise cross correlation，patch-relation head學習深度非線性度量來進行塊匹配，實驗表明，這三個匹配模塊可以相互補充，產生更高的性能，3個head的實施細節詳見補充資料，

在這里插入圖片描述

我們需要哪個relation heads？ 我們遵循RepMet[61]中提出的N-way K-shot評估協議來評估我們的relation head和其他組件，表2顯示了我們提出的多關系檢測器在簡單的1-way 1-shot訓練策略和對FSOD資料集的5-way 5-shot評估下的消融研究，我們在FSOD資料集為所有消融研究使用相同的評估設定，對于單個頭，local-relation head在AP50和AP75評估中表現最好，令人驚訝的是， patch-relation head的性能比其他relation head差，盡管它模擬了影像之間更復雜的關系，我們認為復雜的relation head使模型難以學習，當將任意兩種型別的relation head結合時，我們得到了比單獨的relation head更好的性能，通過組合所有的relation head，我們得到了完整的多關系檢測器，并取得了最好的性能，表明三種提出的關系頭是互補的，以更好地區分目標和非匹配物件，因此，以后的實驗都采用整個多關系檢測器，
在這里插入圖片描述

4.3 雙向對比訓練策略

一種簡單的訓練策略是通過構造一個訓練對(q_c, s_c)來匹配相同的類別物件，其中查詢影像q_c和支持影像s_c都在同一個第c類物件中，一個好的模型不僅要匹配相同的類別物件，還要區分不同的類別，為此，我們提出了一種新穎的雙向對比訓練策略，
根據圖7中不同的匹配結果，我們提出了雙向對比訓練，在區分不同類別的同時進行同一類別的匹配，我們隨機選擇一個查詢影像q_c,，和包含相同c-th類的支持影像s_c，和另一個與s_c物件包含不同的n-th類物件的支持影像s_n，構建訓練triplet(q_c、s_c、s_n)，c ≠ n，在訓練triplet，只有c-th類別查詢影像中的物件標記為前景，而所有其他物件被當作背景，
在訓練程序中，模型學習將查詢影像中注意力RPN產生的每個建議與支持影像中的物件進行匹配，因此，該模型不僅可以在(q_c, s_c)之間匹配相同類別的物件，還可以在(q_c, s_n)之間區分不同類別的物件，然而，有大量的背景提議通常主導訓練，特別是與negative支持影像，由于這個原因，我們在查詢提議和支持之間平衡這些匹配對的比例，對于前景建議和positive支持對(p_f, s_p)，背景建議和positive支持對(p_b, s_p)，以及建議(前景或背景)和negative支持對(p, s_n)，我們保持比例為1:2:1，根據匹配分數，我們分別選取所有N(p_f, s_p)對，選取top 2N (p_b, s_p)對和top N (p, s_n)對，并計算所選擇對的匹配損失，在訓練程序中，我們對每個抽樣建議使用多任務損失L = L_matching + L_box，其中邊界框損失L_box在[24]中定義，匹配損失為二進制交叉熵，
在這里插入圖片描述

哪種訓練策略更好？ 見表3，我們用2-way 1-shot對比訓練策略來訓練我們的模型，與單純的1-way 1-shot訓練策略相比，AP50提高了7.9%，說明在訓練程序中學習如何區分不同類別的重要性，通過5-shot訓練，我們得到了進一步的改善，這正如[1]中驗證的few-shot 訓練有益于few-shot測驗，將我們的雙向訓練策略擴展到多向訓練訓策略是很簡單的，但是，從表3可以看出， 5-way訓練策略并沒有比2-way訓練策略產生更好的績效，我們認為，訓練不同類別區分模型時，只有一個negative支持類別就足夠了，因此，我們所有的模型采用了2-way 5-shot對比訓練策略，
哪一個RPN更好？ 我們用不同的評估指標來評估我們的注意力RPN，為了評估提案質量，我們首先評估常規RPN和我們提議的注意力RPN中超過0.5 IoU閾值的前100個提案的召回，我們的注意RPN比常規RPN表現出更好的召回性能(0.9130 vs. 0.8804)，然后我們評估這兩種rpn在ground truth box上的平均最佳重疊比(ABO[62])，注意RPN的ABO為0.7282，而常規RPN的相同指標為0.7127，這些結果表明，注意RPN可以產生更多高質量的提案，

表3進一步比較了不同訓練策略下，有注意RPN的模型和有常規RPN的模型，在AP50和AP75評估中，帶有注意力RPN的模型始終比常規RPN表現更好，在AP50/AP75評估中，注意力RPN在1-way 1-shot訓練策略中產生0.9%/2.0%的增益，在2-way 5-shot訓練策略中產生2.0%/2.1%的增益，這些結果證實了我們的注意力RPN產生了更好的建議，有利于最終的檢測預測，因此，我們所有的模型都采用了attention RPN，
在這里插入圖片描述

5.實驗

在實驗中，我們比較我們的方法與先進(SOTA)方法在不同的資料集，我們通常在FSOD訓練集上訓練我們的整個模型，然后直接對這些資料集進行評估，為了與其他方法公平的比較，我們可以放棄FSOD上的訓練，采用與這些方法相同的訓練/測驗設定，在這些情況下，我們使用multi-way few-shot訓練在微調階段并描述更多的細節，

5.1 訓練細節

我們的模型使用SGD在4個Tesla P40 gpu上采用batch-size=4(用于查詢影像)進行端到端訓練，前56000次迭代的學習率為0.002，后4000次迭代的學習率為0.0002，我們觀察到在ImageNet[56]和MS COCO[13]上進行預訓練可以提供穩定的低級特征，并且可以得到更好的收斂點，鑒于此，除非另有說明，我們默認從[13,56]上預先訓練好的ResNet50訓練我們的模型，在訓練程序中，我們發現過多的訓練迭代會損害性能，過多的訓練迭代會使模型過度擬合到訓練集上，我們固定Res1-3 blocks的權值，只訓練高層利用低層基本特征，避免過擬合，將查詢影像的較短邊調整為600像素；長邊的上限是1000，支持影像以16像素的影像背景關系圍繞目標物件裁剪，零填充，然后調整大小為320x320的正方形影像，對于few-shot的訓練和測驗，我們通過對同一類別的目標特征求平均來融合特征，然后將它們輸入到注意力RPN和多關系檢測器中，我們采用典型的度量標準[21]，即AP、AP50和AP75進行評估，

5.2 與SOTA方法的比較

5.2.1 ImageNet檢測資料集

在表4中，我們將我們的結果與LSTD[9]和RepMet[61]在具有挑戰性的基于ImageNet的50路5-shot檢測場景中的結果進行了比較，為了公平比較，我們使用他們的評估協議和測驗資料集，我們使用相同的MS COCO訓練集來訓練我們的模型，在評估期間，我們還使用了RepMet評估中采用的soft- nms[63]，在AP50上的評估相比，我們的方法獲得了1.7%的性能提升，

為了顯示我們方法的泛化能力，我們直接將我們在FSOD資料集上訓練的模型應用到測驗集上，我們在AP50評估上得到了41.7%，這比我們的微調模型好得多(表4)，值得注意的是我們的模型在FSOD資料集上訓練之后，可以直接在測驗集上測驗，不需要微調，就可以實作SOTA的表現，此外，雖然我們在FSOD資料集上訓練的模型比我們在MS-COCO資料集上的微調模型具有稍微好的AP50性能，但是在AP75評估中，我們的模型比微調模型高出6.4%，這表明我們提出的FSOD資料集顯著地有利于few-shot目標檢測，通過在測驗集上對FSOD訓練模型進行進一步微調，我們的模型獲得了最佳性能，同時注意到，與SOTA相比，我們的不進行微調的方法已經作業得最好，
在這里插入圖片描述

5.2.2 MS COCO資料集

在表5中，我們在MS COCO minival集比較我們的方法與特征權重[10]和Meta R-CNN[12]，我們遵循他們的資料分割和使用相同的評估協議:我們設定了20個類別包含在PASCAL VOC作為新的類別來評估，并使用其他60類別MS COCO的其他60類別來訓練，我們使用相同MS COCO訓練資料集的微調模型在AP/AP50/AP75指標上的表現比Meta - cnn高出2.4%/1.3%/4.0%，這說明了我們的模型具有很強的學習和泛化能力，而且，在few-shot場景中，學習通用的匹配關系比嘗試學習分類特定的嵌入更有前景[10,12]，我們采用FSOD訓練的模型在AP/AP50/AP75指標上取得了7.9%/12.2%/9.5%的顯著改善，值得注意的是，我們在FSOD資料集上訓練的模型直接應用于新的類別，而沒有任何進一步的微調
，而所有其他方法都使用10個支持來微調適應新的類別，同樣，在不進行微調的情況下，我們在FSOD上訓練的模型已經在sota中作業得最好了，
在這里插入圖片描述

5.3 現實中的應用

我們在不同的實際應用場景中應用我們的方法來展示它的泛化能力，圖8給出了我們測驗集中對新類別的定性1-shot目標檢測結果，我們進一步將我們的方法應用于野生企鵝的檢測[64]，并在圖9中顯示了樣本定性的5-shot目標檢測結果，
在這里插入圖片描述

新類別的檢測. 考慮這種常見現實生活中的應用場景：給定一個大量的圖片相冊或電視連續劇沒有任何標簽，標注的任務是在給定的大規模收集不知道哪些影像包含目標物件，可存在在不同的大小和位置的情況下，注釋新穎的目標物件(例如,火箭)，為了減少人工勞動，一種解決方案是手動查找少量包含目標物件的影像，對它們進行注釋，然后應用我們的方法自動對影像集合中的其余影像進行注釋，根據這個設定，我們執行評估如下：我們將所有測驗FSOD的影像資料集合在一起，并為每個物件類別，我們在整個測驗集中選5張包含目標物件的影像來執行該新類別的目標檢測，注意，不同于標準的目標檢測評估，在這個評估里，該模型分別評估每個類別，沒有完整的可知類別，
我們與LSTD[9]進行了比較，它需要通過將知識從源域轉移到目標域來訓練新的類別，然而，我們的方法可以應用于檢測新的類別中的物件，而不需要任何進一步的再訓練或微調，這與LSTD有根本的不同，為了更有經驗的比較，我們將LSTD調整為基于Faster R-CNN，并在公平配置下分別對每個測驗類別的5個固定支撐進行再訓練，結果如表6所示，在AP50/AP75的所有200個測驗類別中，我們的方法比LSTD的性能高出3.3%/5.9%，比它的骨干Faster R-CNN性能高4.5%/6.5%，更具體地說，在沒有對我們的資料集進行預先訓練的情況下，Faster R-CNN的性能會顯著下降，注意，因為模型只知道支持類別，基于finetuning的模型需要分別訓練每個類別，這很費時間，
在這里插入圖片描述

Wild Car檢測. 我們將我們的方法應用于KITTI[52]和Cityscapes[65]資料集上的Wild Car檢測，這些資料集是用于駕駛應用的城市場景資料集，影像由車載攝像機捕捉，我們評估在KITTI訓練集上7480張圖片和Cityscapes驗證集上500張圖片的car類別，DA Faster R-CNN[66]使用來自源域(KITTI/Cityscapes)的大量注釋資料和來自目標域(Cityscapes/KITTI)的未標記資料來訓練域自適應Faster R-CNN，并評估目標域上的性能，沒有使用進一步的重新訓練和微調，我們采用10-shot支持的模型獲得了可比甚至更好的AP50表現(Cityscapes上37.0% vs 38.5%，KITTI上 67.4% vs. 64.1%)，請注意，DA - Faster R-CNN是專門為野外汽車檢測任務設計的，它們在類似領域使用更多的訓練資料，

5.4 更多的類別 vs 更多的樣本？

我們提出的資料集有大量的目標類別，但每個類別的影像樣本很少，這有利于few-shot目標檢測，為了證實這一益處，我們在MS COCO資料集上訓練我們的模型，該資料集有超過11.5萬張影像，只有80個類別，然后在分類數不同的FSOD資料集上對模型進行訓練，同時保持相似的訓練影像數目，表7總結了實驗結果，我們發現MS COCO雖然擁有最多的訓練影像，但其模型性能最差，然而在FSOD資料集上訓練的模型有著更好的性能，有著更多的類別但保持相似的訓練影像數目，這表明，數量有限、影像數量過多的類別實際上會阻礙few-shot目標的檢測，而數量眾多的類別則會持續地對任務有益，因此，我們認為類別多樣性對于few-shot目標檢測至關重要，
在這里插入圖片描述

6. 結論

我們提出了一種基于注意力RPN、多關系檢測器和對比訓練策略的few-shot目標檢測網路，我們貢獻了一個新的FSOD，其中包含1000個帶有高質量注釋的各種物件類別，在FSOD上訓練的模型可以不需要預先訓練或進一步的網路自適應就能檢測出新的類別目標，我們的模型已被廣泛的定量和定性結果在不同的資料集上驗證，本文對few-shot目標檢測做出了貢獻，我們相信通過我們的大規模FSOD資料集和檢測網路可以衍生出值得研究的相關作業，

附錄A：多關系檢測器的實作細節

考慮到支持特征fs和大小為7x7xC的查詢建議特性fq，我們的多關系檢測器實作如下，我們使用三個正面的匹配分數之和作為最終的匹配分數，
Global-Relation Head. 我們將fs和fq連接到大小為7x7x2C的連接特征fc，然后我們將fc平均池化為1x1x2C向量，然后，我們使用具有兩個完全連接(fc)層(ReLU)的MLP和一個最終的fc層來處理fc并生成匹配的分數，
Local-Relation Head. 首先使用權重共享的1x1xC卷積分別處理fs和fq，然后利用主論文4.2.1節中的公式，S = H = W = 7計算 depth-wise相似度，然后使用fc層生成匹配的分數，
Patch-Relation Head. 我們首先將fs和fq連接到大小為7x7x2C的連接特征fc，然后將fc送入patch-relation模塊，其結構如表8所示，本模塊中所有卷積層、ReLU層和池化層都有零填充，將feature map的大小從7x7減小到1x1，然后我們使用fc層來生成匹配分數，使用單獨的fc層來生成邊界框預測，
在這里插入圖片描述

附錄B：更多的實作細節

B.1. 訓練和微調細節

在這里，我們將在主論文的5.2節中展示更多的實驗細節，
在5.2節中，我們采用其他方法在MS COCO資料集[13]上訓練我們的模型，并對目標資料集進行微調，當我們在MS COCO上訓練我們的模型時，我們洗掉了小于32x32邊框的影像，這些方框通常在視覺質量很差的情況下，當它們作為支持例子時，會損害訓練，當我們在目標資料集上微調我們的模型時，我們遵循其他方法的相同設定[9,10,11,12]來進行公平比較，具體來說，LSTD[9]和RepMet[11]每個類別使用5個支持影像，其中每個影像包含一個或多個物件實體，而Feature reweights[10]和Meta R-CNN[12]使用嚴格的規則，每個類別采用10個物件實體進行微調，

B.2. 評估細節

在論文中有兩種評價設定，

消融實驗采用RepMet[11]中定義的基于分段的評估方案，其設定借鑒于few-shot分類任務[2,4]，總共有600個隨機評估集，這保證了測驗集中的每一幅影像都能得到高概率的評估，在每一段中，對于N-way K-shot評估，有N個類別，每個類別有K個實體，每個類別有10個查詢影像，其中每個查詢影像至少包含一個屬于該類別的實體，所以在每一段中有KxN個支持和10 xN個查詢影像，請注意，所有這些類別和影像都是在每段中隨機選擇的，
其他基于基線的比較實驗采用標準的目標檢測評估標準，這是一種full-way, N-shot評估，在評估程序中，一旦獲得了支持特征，就可以丟棄模型中的支持分支，然后將支持特征作為正向程序的模型權重，

參考文獻

[1] Jake Snell, Kevin Swersky, and Richard Zemel. Prototypical
networks for few-shot learning. In NeurIPS, 2017.
[2] Sachin Ravi and Hugo Larochelle. Optimization as a model
for few-shot learning. In ICLR, 2017.
[3] Adam Santoro, Sergey Bartunov, Matthew Botvinick, Daan
Wierstra, and Timothy Lillicrap. Meta-learning with
memory-augmented neural networks. In ICML, 2016.
[4] Oriol Vinyals, Charles Blundell, Tim Lillicrap, Daan Wierstra, et al. Matching networks for one shot learning. In
NeurIPS, 2016.
[5] Chelsea Finn, Pieter Abbeel, and Sergey Levine. Modelagnostic meta-learning for fast adaptation of deep networks.
In ICML, 2017.
[6] Qi Cai, Yingwei Pan, Ting Yao, Chenggang Yan, and Tao
Mei. Memory matching networks for one-shot image recognition. In CVPR, 2018.
[7] Spyros Gidaris and Nikos Komodakis. Dynamic few-shot
visual learning without forgetting. In CVPR, 2018.
[8] Flood Sung Yongxin Yang, Li Zhang, Tao Xiang, Philip HS
Torr, and Timothy M Hospedales. Learning to compare: Relation network for few-shot learning. In CVPR, 2018.
[9] Hao Chen, Yali Wang, Guoyou Wang, and Yu Qiao. Lstd:
A low-shot transfer detector for object detection. In AAAI,
2018.
[10] Bingyi Kang, Zhuang Liu, Xin Wang, Fisher Yu, Jiashi Feng,
and Trevor Darrell. Few-shot object detection via feature
reweighting. In ICCV, 2019.
[11] Leonid Karlinsky, Joseph Shtok, Sivan Harary, Eli Schwartz,
Amit Aides, Rogerio Feris, Raja Giryes, and Alex M Bronstein. Repmet: Representative-based metric learning for
classification and few-shot object detection. In CVPR, 2019.
[12] Xiaopeng Yan, Ziliang Chen, Anni Xu, Xiaoxi Wang, Xiaodan Liang, and Liang Lin. Meta r-cnn : Towards general
solver for instance-level low-shot learning. In ICCV, 2019.
[13] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays,
Pietro Perona, Deva Ramanan, Piotr Dollar, and C Lawrence ′
Zitnick. Microsoft coco: Common objects in context. In
ECCV, 2014.
[14] Navneet Dalal and Bill Triggs. Histograms of oriented gradients for human detection. In CVPR, 2005.
[15] Pedro F Felzenszwalb, Ross B Girshick, David McAllester,
and Deva Ramanan. Object detection with discriminatively
trained part-based models. IEEE transactions on pattern
analysis and machine intelligence, 32(9):1627–1645, 2010.
[16] P VIODA. Rapid object detection using a boosted cascade
of simple features. In CVPR, 2001.
[17] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton.
Imagenet classification with deep convolutional neural networks. In NeurIPS. 2012.
[18] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali
Farhadi. You only look once: Unified, real-time object detection. In CVPR, 2016.
[19] Joseph Redmon and Ali Farhadi. Yolo9000: better, faster,
stronger. In CVPR, 2017.
[20] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian
Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander C
Berg. Ssd: Single shot multibox detector. In ECCV, 2016.
[21] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and
Piotr Dollar. Focal loss for dense object detection. In ′ ICCV,
2017.
[22] Songtao Liu, Di Huang, et al. Receptive field block net for
accurate and fast object detection. In ECCV, 2018.
[23] Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra
Malik. Rich feature hierarchies for accurate object detection
and semantic segmentation. In CVPR, 2014.
[24] Ross Girshick. Fast r-cnn. In ICCV, 2015.
[25] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun.
Faster r-cnn: Towards real-time object detection with region
proposal networks. In NeurIPS, 2015.
[26] Kaiming He, Georgia Gkioxari, Piotr Dollar, and Ross Gir- ′
shick. Mask r-cnn. In ICCV, 2017.
[27] Bharat Singh, Mahyar Najibi, and Larry S Davis. Sniper:
Efficient multi-scale training. In NeurIPS, 2018.
[28] Sebastian Thrun. Is learning the n-th thing any easier than
learning the first? In NeurIPS, 1996.
[29] Li Fei-Fei, Rob Fergus, and Pietro Perona. One-shot learning
of object categories. IEEE transactions on pattern analysis
and machine intelligence, 28(4):594–611, 2006.
[30] Brenden Lake, Ruslan Salakhutdinov, Jason Gross, and
Joshua Tenenbaum. One shot learning of simple visual concepts. In Proceedings of the Annual Meeting of the Cognitive
Science Society, volume 33, 2011.
[31] Brenden M Lake, Ruslan R Salakhutdinov, and Josh Tenenbaum. One-shot learning by inverting a compositional causal
process. In NeurIPS, 2013.
[32] Brenden M Lake, Ruslan Salakhutdinov, and Joshua B
Tenenbaum. Human-level concept learning through probabilistic program induction. Science, 350(6266):1332–1338,
2015.
[33] Alex Wong and Alan L Yuille. One shot learning via compositions of meaningful patches. In ICCV, 2015.
[34] Boris Oreshkin, Pau Rodr′?guez Lopez, and Alexandre La- ′
coste. Tadam: Task dependent adaptive metric for improved
few-shot learning. In NeurIPS, 2018.
[35] Eleni Triantafillou, Richard Zemel, and Raquel Urtasun.
Few-shot learning through an information retrieval lens. In
NeurIPS, 2017.
[36] Bharath Hariharan and Ross Girshick. Low-shot visual
recognition by shrinking and hallucinating features. In
ICCV, 2017.
[37] Gregory Koch, Richard Zemel, and Ruslan Salakhutdinov.
Siamese neural networks for one-shot image recognition. In
ICML Workshop, 2015.
[38] Tsendsuren Munkhdalai and Hong Yu. Meta networks. In
ICML, 2017.
[39] Tsendsuren Munkhdalai, Xingdi Yuan, Soroush Mehri, and
Adam Trischler. Rapid adaptation with conditionally shifted
neurons. In ICML, 2018.
[40] Yu-Xiong Wang, Ross Girshick, Martial Hebert, and Bharath
Hariharan. Low-shot learning from imaginary data. In
CVPR, 2018.
[41] Wenbin Li, Lei Wang, Jinglin Xu, Jing Huo, Gao Yang, and
Jiebo Luo. Revisiting local descriptor based image-to-class
measure for few-shot learning. In CVPR, 2019.
[42] Yann Lifchitz, Yannis Avrithis, Sylvaine Picard, and Andrei
Bursuc. Dense classification and implanting for few-shot
learning. In CVPR, 2019.
[43] Sungwoong Kim Chang D. Yoo Jongmin Kim, Taesup Kim.
Edge-labeling graph neural network for few-shot learning. In
CVPR, 2019.
[44] Spyros Gidaris and Nikos Komodakis. Generating classification weights with gnn denoising autoencoders for few-shot
learning. In CVPR, 2019.
[45] Hongyang Li, David Eigen, Samuel Dodge, Matthew Zeiler,
and Xiaogang Wang. Finding task-relevant features for fewshot learning by category traversal. In CVPR, 2019.
[46] Chelsea Finn, Pieter Abbeel, and Sergey Levine. Modelagnostic meta-learning for fast adaptation of deep networks.
In ICML, 2017.
[47] Nanqing Dong and Eric P Xing. Few-shot semantic segmentation with prototype learning. In BMVC, 2018.
[48] Claudio Michaelis, Matthias Bethge, and Alexander S.
Ecker. One-shot segmentation in clutter. In ICML, 2018.
[49] Tao Hu, Pengwan, Chiliang Zhang, Gang Yu, Yadong Mu,
and Cees G. M. Snoek. Attention-based multi-context guiding for few-shot semantic segmentation. In AAAI, 2019.
[50] Liang-Yan Gui, Yu-Xiong Wang, Deva Ramanan, and Jose′
M. F. Moura. Few-shot human motion prediction via metalearning. In ECCV, 2018.
[51] Xuanyi Dong, Liang Zheng, Fan Ma, Yi Yang, and Deyu
Meng. Few-example object detection with model communication. IEEE transactions on pattern analysis and machine
intelligence, 41(7):1641–1654, 2018.
[52] Andreas Geiger, Philip Lenz, and Raquel Urtasun. Are we
ready for autonomous driving? the kitti vision benchmark
suite. In CVPR, 2012.
[53] Mark Everingham, Luc Van Gool, Christopher KI Williams,
John Winn, and Andrew Zisserman. The pascal visual object
classes (voc) challenge. International journal of computer
vision, 88(2):303–338, 2010.
[54] Alina Kuznetsova, Hassan Rom, Neil Alldrin, Jasper Uijlings, Ivan Krasin, Jordi Pont-Tuset, Shahab Kamali, Stefan
Popov, Matteo Malloci, Tom Duerig, and Vittorio Ferrari.
The open images dataset v4: Unified image classification,
object detection, and visual relationship detection at scale.
arXiv:1811.00982, 2018.
[55] Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson,
Kenji Hata, Joshua Kravitz, Stephanie Chen, Yannis Kalantidis, Li-Jia Li, David A Shamma, et al. Visual genome:
Connecting language and vision using crowdsourced dense
image annotations. International Journal of Computer Vision, 123(1):32–73, 2017.
[56] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li,
and Li Fei-Fei. Imagenet: A large-scale hierarchical image
database. In CVPR, 2009.
[57] George A Miller. Wordnet: a lexical database for english.
Communications of the ACM, 38(11):39–41, 1995.
[58] Luca Bertinetto, Jack Valmadre, Joao F Henriques, Andrea
Vedaldi, and Philip HS Torr. Fully-convolutional siamese
networks for object tracking. In ECCV, 2016.
[59] Erika Lu, Weidi Xie, and Andrew Zisserman. Class-agnostic
counting. In ACCV, 2018.
[60] Bo Li, Wei Wu, Qiang Wang, Fangyi Zhang, Junliang Xing,
and Junjie Yan. Siamrpn++: Evolution of siamese visual
tracking with very deep networks. In CVPR, 2019.
[61] Eli Schwartz, Leonid Karlinsky, Joseph Shtok, Sivan Harary,
Mattias Marder, Sharathchandra Pankanti, Rogerio Feris,
Abhishek Kumar, Raja Giries, and Alex M Bronstein. Repmet: Representative-based metric learning for classification
and one-shot object detection. In CVPR, 2019.
[62] Jasper RR Uijlings, Koen EA Van De Sande, Theo Gevers, and Arnold WM Smeulders. Selective search for object recognition. International journal of computer vision,
104(2):154–171, 2013.
[63] Navaneeth Bodla, Bharat Singh, Rama Chellappa, and
Larry S. Davis. Soft-nms improving object detection with
one line of code. In ICCV, 2017.
[64] C. Arteta, V. Lempitsky, and A. Zisserman. Counting in the
wild. In ECCV, 2016.
[65] Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo
Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe
Franke, Stefan Roth, and Bernt Schiele. The cityscapes
dataset for semantic urban scene understanding. In CVPR,
2016.
[66] Yuhua Chen, Wen Li, Christos Sakaridis, Dengxin Dai, and
Luc Van Gool. Domain adaptive faster r-cnn for object detection in the wild. In CVPR, 2018.

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/224868.html

標籤：其他

上一篇：FCPX：鏡頭故障抖動效果TOBK TWITCH for Mac

下一篇：51小作業

CVPR2020 Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector論文翻譯