視覺SLAM十四講概述部分-有解無憂

藍色
紫色
紅色

SLAM：同時定位與地圖構建

”搭載特定傳感器的主體，在沒有環境先驗資訊的情況下，于運動程序中建立環境的模型，同時估計自己的運動“

若傳感器主要為相機，即為視覺SLAM，

兩類傳感器

安裝在環境中的（eg. 二維碼Marker/GPS/導軌/磁條）

要滿足外部環境約束才能進行定位作業，（eg. 要有GPS信號，要能鋪設導軌）

攜帶于機器人本體上的（IMU/激光/相機）

IMU：慣性測量單元-wiki，是測量物體三軸姿態角（或角速率）以及加速度的裝置，

測到的通常都是一些間接的物理量而不是直接的位置資料，從這些物理量推測自己的位置，

輪式編碼器-輪子轉動的角度
IMU-測量運動的角速度和加速度
相機和激光則讀取外部環境的某種觀測資料

優點：無環境要求，適用于未知環境，

激光 -Lasers

好處：精確、快速、較長的研究歷史(成熟的方法)
壞處：重、貴

相機 -Camera

以一定速率拍攝周圍的環境，形成一個連續的視頻流，普通的攝像頭能以每秒鐘30 張圖片的速度采集影像，按照作業方式分為單目、雙目、深度相機，
在這里插入圖片描述
好處：便宜、輕巧、資訊豐富
壞處：需要較高的計算資源 (處理視頻流)，需要在一定的作業條件下 (eg. 光線要充足、不能被遮擋、環境要是有紋理的 如果是一片白，并不能夠通過相片的移動來估計自身的運動)

相機的本質

以二維投影形式記錄了三維世界的資訊
丟掉了一個維度：距離

各類相機的主要區別：是否有深度資訊

單目：沒有深度，必須通過移動相機產生深度 Moving View Stereo
雙目：通過視差計算深度 Stereo
RGBD：通過物理方法測量深度

單目相機 -Monocular

無法通過單個圖片來計算場景中物體離我們的距離，而距離資訊是SLAM中非常關鍵的部分，
在這里插入圖片描述
由于單目相機只是三維空間的二維投影，所以，如果我們真想恢復三維結構，必須移動相機的視角，

單目SLAM中同理，我們必須移動相機之后，才能估計它的運動（Motion），同時估計場景中物體的遠近和大小，不妨稱之為結構（Structure），

Motion：相機往右 -> 影像中物體往左
Sturcture：近處物體移動快，遠處物體移動慢

相機移動時，這些物體在影像上的運動，形成了視差，通過視差可以定量判斷物體的遠近，

單目相機最大缺點在于無法確定真實的尺度 `-尺度不確定性`

單目相機可以知道物體的相對遠近，卻無法感知真實物體的大小，

把相機運動和場景大小同時縮放k倍，單目所看到的像都是一樣的，即單目SLAM 估計的軌跡和地圖，將與真實的軌跡和地圖，相差一個因子：尺度（Scale）

單目SLAM應用難度大本質原因是：通過單張影像無法確定深度（兩個原因：平移之后才能計算深度，以及無法確定真實尺度）

雙目相機 -Stereo

雙目相機和深度相機的目的，在于通過某種手段測量物
體離我們的距離，克服單目無法知道距離的缺點，如果知道了距離，場景的三維結構就可以通過單個影像恢復出來，也就消除了尺度不確定性，
在這里插入圖片描述
雙目相機由兩個單目相機組成，但這 兩個相機之間的距離（稱為基線（Baseline））是已知的,我們通過這個基線來估計每個像素的空間位置，可以再擴展成多目相機，

注意：雙目相機測量到的深度范圍與基線相關，基線距離越大，能夠測量到的就越遠，

雙目相機的距離估計是比較左右眼的影像獲得的，并不依賴其他傳感設備，適用于室內外環境，

雙目或多目相機的缺點是配置與標定均較為復雜，其深度量程和精度受雙目的基線與解析度限制，而且視差的計算非常消耗計算資源，需要使用GPU 和FPGA 設備加速后，才能實時輸出整張影像的距離資訊，計算量 是目前雙目的主要限制原因之一，

深度相機 -RGB-D

在這里插入圖片描述
最大的特點 是可以通過紅外結構光或Time-of-Flight（ToF）原理，像激光傳感器那樣，通過主動向物體發射光并接識訓傳的光，測出物體離相機的距離，物理測量,相比雙目可節省大量計算

目前常用的RGB-D 相機包括Kinect/Kinect V2、Xtion live pro、Realsense 等，

現在多數 RGB-D 相機還存在測量范圍窄、噪聲大、視野小、易受日光干擾、無法測量透射材質等諸多問題，在SLAM 方面，主要用于室內SLAM，室外則較難應用，

經典視覺SLAM框架

在這里插入圖片描述

視覺里程計 ?Visual Odometry

實際的里程計：只計算相鄰時刻的運動，而和過去的資訊無關，

視覺里程計：關心相鄰影像之間的相機運動，并需要精確地測量這段運動資訊（eg. 旋轉了多少度，平移了多少厘米），

視覺SLAM 中，我們只能看到一個個像素，知道它們是某些空間點在相機的成像平面上投影的結果，通過相機成像原理和空間點的幾何關系可以定量估計相機運動，

VO 能夠通過相鄰幀間的影像估計相機運動，并恢復場景的空間結構，

存在的問題：僅通過視覺里程計來估計軌跡，將不可避免地出現累計漂移（Accumulating Drift），視覺里程計（在最簡單的情況下）只估計兩個影像間運動，每次估計的誤差都會傳遞到下一時刻
在這里插入圖片描述
解決漂移問題：后端優化和回環檢測（回環檢測把”機器人回到原始位置“的事情檢測出來，后端優化根據該資訊校正整個軌跡形狀）

后端優化 ?Optimization

后端優化主要處理SLAM程序中的噪聲問題，

后端優化要考慮的問題，就是如何從這些帶有噪聲的資料中，估計整個系統的狀態，以及這個狀態估計的不確定性有多大——這稱為最大后驗概率估計（Maximum-a-Posteriori，MAP），這里的狀態既包括機器人自身的軌跡，也包含地圖，

在視覺SLAM 中，前端和計算機視覺研究領域更為相關，比如影像的特征提取與匹配等，后端則主要是濾波與非線性優化演算法，

SLAM 問題的本質：對運動主體自身和周圍環境空間不確定性的估計，

回環檢測?Loop Closing

回環檢測，又稱倍訓檢測（Loop Closure Detection），主要解決位置估計隨時間漂移的問題，

地圖存在的主要意義，是為了讓機器人知曉自己到達過的地方，為了實作回環檢測，我們需要讓機器人具有識別曾到達過的場景的能力，(eg. 在某個位置放置二維碼，再次識別到它的時候即是回到了原點)

我們更希望能夠通過相機得到的影像本身來完成這一任務，eg.通過判斷影像間的相似性，來完成回環檢測，

建圖?Mapping

建圖（Mapping）是指構建地圖的程序，地圖是對環境的描述，但這個描述并不是固定的，需要視SLAM 的應用而定，例如有的場景只需要知道哪里有障礙物哪里能夠通過，有的場景需要重建三位地圖資訊，

度量地圖 ? Metric Map

度量地圖強調精確地表示地圖中物體的位置關系，通常我們用稀疏（Sparse）與稠密（Dense）對它們進行分類，

我們選擇一部分具有代表意義的東西，稱之為路標（Landmark），那么一張稀疏地圖就是由路標組成的地圖，而不是路標的部分就可以忽略掉， 定位

稠密地圖通常按照某種解析度，由許多個小塊組成，二維度量地圖是許多個小格子（Grid），三維則是許多小方塊（Voxel），(耗費大量的存盤空間，且多數細節無用)一般一個小塊含有占據、空閑、未知三種狀態，以表達該格內是否有物體，當我們查詢某個空間位置時，地圖能夠給出該位置是否可以通過的資訊， 導航 (大規模度量地圖有時會有一致性問題 很小的轉向誤差會導致物體重疊，地圖失效 )

拓撲地圖 ?Topological Map

拓撲地圖是一個圖 (Graph) ，由節點和邊組成，只考慮節點間的連通性，更強調地圖元素之間的關系，拓撲地圖不擅長表達具有復雜結構的地圖，

難點問題：如何對地圖進行分割形成結點與邊，又如何使用拓撲地圖進行導航與路徑規劃，

轉載請註明出處，本文鏈接：https://www.uj5u.com/ruanti/304011.html

標籤：其他

上一篇：榕樹貸款用C++實作低對比度影像臟污區域檢測

下一篇：HTTP 快取機制

視覺SLAM十四講 概述部分