深度估計是計算機視覺領域中的一個子任務,其目的是獲取物體和拍攝點之間的距離,為三維重建、距離感知、SLAM、視覺里程計、活體檢測、視頻插幀、影像重建等一系列任務提供深度資訊,這篇文章會對其做一個簡單介紹,
任務目標
- 深度估計任務的目標就是獲取物體和拍攝點之間的距離,最侄訓獲得一個深度圖,也稱為光流圖,它記錄了同一物體在不同影像之間的視差,再通過相機引數、兩個拍攝點之間的位置資訊即可換算出物體和拍攝點之間的距離,
什么是視差(光流)
- 先舉一個直觀的例子,大家應該都坐過車,在車輛移動時往窗外看去,可以看到遠處的物體變化的慢,而近處的物體變化的非常快,這里面蘊含的就是視差資訊,
- 視差也被稱為光流,在上面的例子中,隨著車輛的移動,假設你在兩個連續的時刻各拍了一張圖,如果這兩張影像中有一些相同的物體,那么這些物體在這兩張影像中像素坐標的差異通常是不同的,而如果某個物體在這兩張圖片中的像素坐標差異非常大,那么由此可判斷這個物體離拍攝點相對較近,而如果某個物體在這兩張影像中的像素坐標差異較小,那么可以推斷出這個物體距離拍攝點相對較近,也就是說,較近的物體視差較大,較遠的物體視差較小,而同一物體在不同影像中的像素坐標差異,就是視差,
深度估計的應用場景
- 視差的主要作用是獲取物體的深度資訊,也就是和拍攝點之間的距離,
- 在三維重建任務中,可以由此深度獲取物體的三維點云圖,然后進行三維重建,
- 在距離感知任務中,如基于視覺的自動駕駛中,可以由此判斷場景內各物體和車輛之間的距離,進而輔助車輛進行決策,
- 在SLAM、視覺里程計中,能夠基于深度、感知融合進行道路資訊的采集,谷歌街景、滴滴街景等就用到了這個技術,還有一些自動駕駛企業如waymo、地平線、momenta、圖森未來等都離不開這個技術,
- 在人臉的活體檢測中,可以判斷目標是一個真實的人臉還是一個平面照片,雖然可能拿3D頭模沒辦法,不過通常基于深度的活體檢測已經能篩選掉一大批假人臉了,
- 在視頻插幀、影像重建中,可以用于補齊新的影像,提升用戶看視頻或者影像的主觀感受,或者模擬360度全景拍攝,
獲取深度資訊的方法
- 傳統方法一般是立體匹配,也就是通過搜索和算子的匹配找到兩張影像中的統一像素點,然后輸出他們之間像素坐標的差異,
- 基于EPI影像和重對焦影像的深度估計,在多視點任務中,EPI影像和重對焦影像也是兩個常見的概念,EPI影像中每條線的斜率、重對焦影像中每個像素點的清晰度,都蘊含了深度資訊,
- 雷達,關注自動駕駛的都知道,完成自動駕駛有兩種方法,一種是特斯拉和傳統車企的路子,也就是在車輛上裝一些攝像頭,通過攝像頭和演算法來感知深度,現在由于精度的問題,業界對其的共識是這種方法只能達到輔助駕駛,無法實作完全的自動駕駛,另一種做法則是以谷歌為代表的完全自動駕駛方向,標志是舍棄了方向盤、車輛頂部裝有一個不斷旋轉的巨大雷達,這里不深究技術細節,只要知道這種方法的精度更高即可,
- 結構光,這也是一種基于光學特性獲取物體深度的方法,不過沒有大面積普及,不做贅述,
深度學習和傳統方法比的優勢
- 從演算法層面說,主要優勢就是精度高、資料資訊使用的更加充分,深度學習模型自己擬合的高緯度函式要優于手工設計的能量函式,
- 從應用側角度看,一個明顯的優勢是在達到需求的前提下,落地成本較低,
博主會持續更新一些深度學習相關的基礎知識以及作業中遇到的問題和感悟,喜歡請關注、點贊、收藏,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/295077.html
標籤:AI
