【論文解讀】MV3D-Net 用于自動駕駛的多視圖3D目標檢測網路-有解無憂

前言

MV3D-Net融合了視覺影像和激光雷達點云資訊；它只用了點云的俯視圖和前視圖，這樣既能減少計算量，又保留了主要的特征資訊，隨后生成3D候選區域，把特征和候選區域融合后輸出最終的目標檢測框，

論文地址：Multi-View 3D Object Detection Network for Autonomous Driving

開源代碼：https://github.com/bostondiditeam/MV3D

一、框架了解

1.1 網路的主體部分

1.2 網路的融合部分

二、MV3D的點云處理

2.1 提取點云俯視圖

2.2 提取點云前視圖

三、MV3D的影像處理

四、俯視圖計算候選區域

五、特征整合

六、特征融合

七、模型效果

八、模型代碼

一、框架了解

先看下總體網路結構：（可以點擊圖片放大查看）

上圖中的紫色圓圈中M是表示：基于元素的均值，

輸入的資料：有三種，分別是點云俯視圖、點云前視圖和二維RGB影像，“點云投影”，其實并非簡單地把三維壓成二維，而是提取了高程、密度、光強等特征，分別作為像素值，得到的二維投影圖片，

輸出資料：類別標簽、3D邊界框、時間戳，

1.1 網路的主體部分

思路流程：

1）提取特征

a. 提取點云俯視圖特征
b. 提取點云前視圖特征
c. 提取影像特征

2）從點云俯視圖特征中計算候選區域

3）把候選區域分別與1）中a、b、c得到的特征進行整合

a. 把俯視圖候選區域投影到前視圖和影像中
b. 經過ROI pooling整合成同一維度

1.2 網路的融合部分

這部分網路主要是：把整合后的資料經過網路進行融合

二、MV3D的點云處理

MV3D將點云和圖片資料映射到三個維度進行融合，從而獲得更準確的定位和檢測的結果，這三個維度分別為點云的俯視圖、點云的前視圖以及圖片，

2.1 提取點云俯視圖

點云俯視圖由高度、強度、密度組成；作者將點云資料投影到解析度為0.1的二維網格中，

高度圖的獲取方式為：將每個網格中所有點高度的最大值記做高度特征，為了編碼更多的高度特征，將點云被分為M塊，每一個塊都計算相應的高度圖，從而獲得了M個高度圖，

強度圖的獲取方式為：每個單元格中有最大高度的點的映射值，

密度圖的獲取方式為：統計每個單元中點云的個數，并且按照公式：

其中N為單元格中的點的數目，強度和密度特征計算的是整個點云，而高度特征是計算M切片，所以，總的俯視圖被編碼為（M + 2）個通道的特征，

2.2 提取點云前視圖

由于激光點云非常稀疏的時候，投影到2D圖上也會非常稀疏，相反，作者將它投影到一個圓柱面生成一個稠密的前視圖，假設3D坐標為：

那么前視圖坐標：

可以通過如下式子計算

三、MV3D的影像處理

采用經典的VGG-16來提取影像特征，這里就不過多說明了，

四、俯視圖計算候選區域

物體投射到俯視圖時，保持了物體的物理尺寸，從而具有較小的尺寸方差，這在前視圖/影像平面的情況下不具備的，在俯視圖中，物體占據不同的空間，從而避免遮擋問題，

在道路場景中，由于目標通常位于地面平面上，并在垂直位置的方差較小，可以為獲得準確的3Dbounding box提供良好基礎，

候選區域網路就是熟悉的RPN，參考

五、特征整合

把候選區域分別與提取的特征進行整合

流程：

a. 把俯視圖候選區域投影到前視圖和影像中
b. 經過ROI pooling整合成同一維度

六、特征融合

有了整合后的資料，需要對特征進行融合，最終得到類別標簽、3D邊界框，

作者介紹了三種不同的融合方式，分別為

a、Early Fusion 早期融合
b、Late Fusion 后期融合
c、Deep Fusion 深度融合，

各自的結構如下圖所示，

上圖中的紫色圓圈中M是表示：基于元素的均值，C是表示：串接，

最終選擇了Deep Fusion 深度融合，融合的特征用作：分類任務（人/車/...）、更精細化的3D Box回歸（包含對物體朝向的估計），

七、模型效果

和其他模型對比的資料：

檢測效果：

八、模型代碼

代碼地址：https://github.com/bostondiditeam/MV3D

作者使用KITTI提供的原始資料，點擊鏈接

上圖是用于原型制作的資料集，

我們使用了[同步+校正資料] + [校準]（校準矩陣）+ [軌跡]（）

所以輸入資料結構是這樣的：

運行 src/data.py 后，我們獲得了 MV3D 網路所需的輸入，它保存在kitti中，

上圖是激光雷達俯視圖（data.py后）

上圖是將 3D 邊界框投影回相機影像中，

輸入具體資料格式可以參考'data.py' 'data.py' 網址

本文參考：https://zhuanlan.zhihu.com/p/86312623、https://zhuanlan.zhihu.com/p/353955895

https://cloud.tencent.com/developer/news/223860

論文地址：Multi-View 3D Object Detection Network for Autonomous Driving

代碼地址：https://github.com/bostondiditeam/MV3D

本文只提供參考學習，謝謝，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/289957.html

標籤：其他

上一篇：STM32F407獲取OV5640攝像頭影像及上位機解碼（一維碼&二維碼）

下一篇：Ubuntu 20.0.4 安裝 Docker