基于 Mask R-CNN 中邊界框回歸知識講解（重點是代碼）-有解無憂

一、邊界框回歸的概念

????如圖所示，紅色的框代表原始的建議框（proposal region），綠色的框代表目標的真實邊界框（ground truth），邊界框回歸的目標是：尋找一種映射關系，使得原始的建議框（紅色）經過映射變為一個與真實邊界框（綠色）更接近的邊界框（藍色），一個矩形框通常可以用x、y、w、h四個引數表示（它們分別表示視窗中心點的坐標以及矩形框的寬高），

二、公式講解

????邊界框回歸的這種映射關系可以表示為：

????邊界框 G ^ \hat{G} G^ 可以通過下式得到，其中 P P P = ( P P P x _{x} x?, P P P y _{y} y?, P P P w _{w} w?, P P P h _{h} h?)，邊界框的變換由 d d d x _{x} x?( P P P)、 d d d y _{y} y?( P P P)、 d d d w _{w} w?( P P P)、 d d d h _{h} h?( P P P)四個函式實作，
在這里插入圖片描述
????公式（1）實作的是平移變換，可以明顯看到是在 P P P x _{x} x?, P P P y _{y} y? 的基礎上加一個 △ \triangle △ x _{x} x?， △ \triangle △ y _{y} y?得到，很容易想到肯定在中心坐標上加上相對于寬和高的 d d d x _{x} x?、 d d d y _{y} y?倍；
????公式（2）實作的是一個對數空間的尺寸縮放變換，即乘以 e e e d ^{d} d 倍；
????在目標檢測演算法中， d d d x _{x} x?、 d d d y _{y} y?、 d d d w _{w} w?、 d d d h _{h} h?是由演算法在邊界框回歸分支中輸出得到的，也就是在演算法中邊界框預測分支的輸出并不是真正的框的位置，而是相對于建議框的偏移量（delta），