網路的結構如下:

采用FPN結構,Backbone是RetinalNet,分成了P3~P7共5個Layer,分別訓練不同尺寸的Box.每個Layer對應的Head有2個分支,包括一個單獨的分支用來預測分類,另一個分支用來預測兩部分,一部分是Box坐標的回歸,另一部分是GT Box和Anchor之間的IOU,這也是這篇論文的主要創新點,Faster RCNN等方法是對Anchor進行分類,與GT Box的IOU高于0.7的是正例,低于0.3的是負例,而這篇論文直接預測GT Box和Anchor之間的IOU.
Loss Function包括3個部分:分類損失,包括正例和負例,采用Focal Loss作為損失函式;回歸損失,采用Smooth L1作為損失函式;IOU由于在0~1之間,采用Binary cross-entropy作為損失函式.

推理時采用分類值和IOU的值的乘積作為預測框的置信度,也就是排序的依據,其中α用來調整兩者的權重.
![]()
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/49903.html
標籤:其他
