
論文標題:SNE-RoadSeg: Incorporating Surface Normal Information into Semantic Segmentation for Accurate Freespace Detection
論文地址:https://arxiv.org/abs/2008.11351v1
論文代碼:https://github.com/hlwang1124/SNE-RoadSeg
資料集:http://sites.google.com/view/sne-roadseg
發表時間:2020年8月
本文使用表面法線估計器(SNE)對 Depth Image 進行處理,再使用 ResNet 進行特征提取,和僅使用 ResNet 進行特征提取的 RGB Image 的特征進行融合,融合使用了 FCN、DenseNet 的思想,具體融合處理僅僅是元素相加求和,
Abstract
自由空間檢測是自動駕駛汽車視覺感知的重要組成部分,最近在資料融合卷積神經網路 (CNN) 方面所做的努力顯著改善了語意駕駛場景分割,自由空間可以假設為地平面,其上的點具有相似的表面法線,
因此,在本文中,我們首先介紹了一個名為表面法線估計器(SNE)的新模塊,它可以從密集的深度/視差影像中以高精度和高效率推斷表面法線資訊,此外,我們提出了一種資料融合 CNN 架構,稱為 RoadSeg,它可以從 RGB 影像和推斷的表面法線資訊中提取和融合特征,以實作準確的自由空間檢測,出于研究目的,我們發布了一個名為 Ready-to-Drive (R2D) 道路資料集的大型合成自由空間檢測資料集,該資料集是在不同的光照和天氣條件下收集的,實驗結果表明,我們提出的 SNE 模塊可以使所有最先進的 CNN 用于自由空間檢測,并且我們的 SNE-RoadSeg 在不同資料集中實作了最佳的整體性能,
Personal understanding
本文兩處創新:
1、表面法線估計器(SNE)
本質上就是一種特殊的特征提取方法
2、融合架構 RoadSeg
SNE 從深度/視差影像中提取特征,將此特征和 RGB 影像特征通過 RoadSeg 架構進行融合,本質上也是 CNN 的構成的,核心思想是基于 DenseNet 的改進
Method
1、表面法線估計器(SNE)架構如圖

SNE 具體流程是嚴格的數學推導,并且作者給出了推導程序,數學基礎好的同學可以詳細看一下,會有識訓的,不好的同學代碼是開源的,可以直接使用,部分推導原文如下:

2、RoadSeg 的資料融合 CNN 架構

首先 Depth Image 經過 SNE 進行特征提取,經過 Conv、BN、ReLU、Max Pooling、殘差塊......
同時 RGB Image 也經過 Conv、BN、ReLU、Fusion(此處融合只是簡單的元素相加)
不同層進行了多次殘差、融合、上采樣、特征提取操作,思想來源于 FCN 架構,不理解的同學,可以自學一下 FCN 不算太復雜,也可以自學以下 U-Net,道理相似,
這里要提一下,針對 Depth Image 影像的 SNE 輸出的特征、RGB Image 特征,作者是使用的 ResNet 為主干進行特征提取,ResNet 架構,已經不屬于 SOTA 了,所以這個位置,是可以進行改進的,
Experiments

作者進行了很多次實驗,并且在不同的資料集上都進行了對比實驗,因為本文是2020年的文章,這里就不介紹過多實驗程序了,放一張有價值的圖,發現我們的方法是最優的,
這里解釋一下,為什么有多種 RoadSeg 架構,這里是因為,針對 Depth Image 經過 SNE 后的特征和 RGB Image 的特征是通過 ResNet 進行特征提取的,而 ResNet 的架構有多種架構
有 ResNET-18、ResNet-34......ResNet-152,為了避免同學們看不懂,這里詳細說了以一下
方便自己學習時能夠更快理解,并且最終發現, RoadSeg 使用 ResNet-152 效果最好,也正是因為神經網路學習的知識做過多,所以它最準確呀!
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/433374.html
標籤:AI
