MASK-RCNN是一個多用途的網路,可以用來做目標檢測,實體分割或者人體姿態識別.主要結構如下.

簡單的說,就是首先用Faster-RCNN獲得ROI,再進行ROI Align,然后輸出ROI的分類,同時輸出分割掩碼.
1. Faster-RCNN和ROI Align
Faster-RCNN是一個兩階段檢測器,第一階段(即RPN)提出候選ROI,再過濾掉一部分,第二階段對剩下的ROI進行分類.
MASK-RCNN對Faster-RCNN做了修改,獲得ROI以后并沒有馬上輸出分類,而是進行了ROI Align.ROI Align通過雙線性插值獲得準確的特征圖,而不是四舍五入以后的特征圖.例如,如果輸出的ROI坐標是[x/16],其中16是特征圖步幅,[?]表示四舍五入,這樣獲得的特征圖和ROI的坐標并沒有完全對端,雖然對分類影響不大,但是對掩碼的輸出影響較大.ROI Align通過雙線性插值獲得準確的特征圖,如下圖所示.

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/187957.html
標籤:其他
下一篇:09 線性回歸及矩陣運算
