以前,我們一直認(rèn)為傳統(tǒng)相機(jī)將3D世界轉(zhuǎn)換為2D圖像,已可以滿足我們對(duì)于圖像的應(yīng)用,而2D圖像中丟失的三維似乎并不重要。
但隨著計(jì)算機(jī)視覺(CV)的飛速發(fā)展以及與深度學(xué)習(xí)的結(jié)合,許多雄心勃勃的研究人員試圖使機(jī)器通過攝像頭更好地了解我們的世界,以便它們可以通過許多任務(wù)來增強(qiáng)人類的能力。其中最有意義的是找回2D圖像中丟失的深度信息。
在如今諸多火爆的智能硬件中,如體感交互、遠(yuǎn)程遙控機(jī)器人、無人駕駛等場(chǎng)景里,CV發(fā)揮著重要作用,成功完成諸如手寫識(shí)別,對(duì)象分類、輔助駕駛之類的工作。但是,當(dāng)處理真實(shí)的3D世界時(shí),CV就存在瓶頸。人類有兩只眼睛,使我們能夠自然地感知深度。但是,大多數(shù)CV應(yīng)用程序都依靠一臺(tái)攝像機(jī)來捕獲和解釋其周圍的環(huán)境,難以獲取深度信息。丟失的三維尺寸嚴(yán)重限制了CV的性能,可以說傳感器的性能就是如今虛擬與現(xiàn)實(shí)世界之間的瓶頸。
深度傳遞關(guān)鍵信息——我們將需要深度感測(cè)和2D成像來捕獲現(xiàn)實(shí)世界的全部信息。
深度傳感器的三種技術(shù)
目前人們?nèi)绻胩綔y(cè)環(huán)境深度信息,主要依賴于三種技術(shù),分別是相機(jī)陣列, TOF(time of flight)技術(shù),以及基于結(jié)構(gòu)光的深度探測(cè)技術(shù)。
●結(jié)構(gòu)光:
接收器使用激光光源投射目標(biāo)物,檢測(cè)反射目標(biāo)物的變形,以基于幾何形狀計(jì)算深度圖。它必須掃描整個(gè)平面以獲得需要時(shí)間的深度圖,因此它是非常準(zhǔn)確的。但是,此方法對(duì)環(huán)境亮度敏感,因此通常僅在黑暗或室內(nèi)區(qū)域使用。
●飛行時(shí)間(ToF):
ToF主要有兩種方法。
第一個(gè)很簡(jiǎn)單:激光源發(fā)出一個(gè)脈沖,傳感器檢測(cè)到該脈沖在目標(biāo)物體上的反射,以記錄其飛行時(shí)間。知道了光的恒定速度后,系統(tǒng)可以計(jì)算出目標(biāo)物體的距離。為了確保高精度,脈沖周期必須短,這導(dǎo)致較高的成本。另外,需要高分辨率的時(shí)間數(shù)字轉(zhuǎn)換器,這會(huì)消耗很多功率。這種方法通??梢栽诟咝阅躎oF傳感器中找到。
計(jì)算時(shí)間的另一種方法是發(fā)出調(diào)制光源并檢測(cè)反射光的相位變化。相變可以通過混合技術(shù)容易地測(cè)量。調(diào)制激光源比發(fā)出短脈沖更容易,并且混合技術(shù)比時(shí)間數(shù)字轉(zhuǎn)換器更易于實(shí)現(xiàn)。此外,LED可用作調(diào)制光源來代替激光。因此,基于調(diào)制的ToF系統(tǒng)適合于低成本ToF傳感器。
●相機(jī)陣列:
攝像頭陣列方法使用放置在不同位置的多個(gè)攝像頭來捕獲同一目標(biāo)的多個(gè)圖像,并根據(jù)幾何結(jié)構(gòu)計(jì)算深度圖。在計(jì)算機(jī)視覺中,這也稱為“立體視圖”。
最簡(jiǎn)單但最受歡迎的相機(jī)陣列是雙相機(jī),其中兩個(gè)相機(jī)相隔一定距離以模仿人眼。對(duì)于空間中的每個(gè)點(diǎn),在兩個(gè)攝像機(jī)圖像中的位置均出現(xiàn)可測(cè)量的差異。然后,通過基本幾何來計(jì)算深度。
相機(jī)陣列的主要挑戰(zhàn)是如何在多個(gè)圖像中找到匹配點(diǎn)。匹配點(diǎn)搜索涉及復(fù)雜的CV算法。目前,深度學(xué)習(xí)可以幫助您找到準(zhǔn)確度較高的匹配點(diǎn),但是其計(jì)算成本很高。另外,有很多點(diǎn)很難找到匹配點(diǎn)。
例如,在上面的瓦格納雕像的兩個(gè)視圖中,鼻子是最容易匹配的點(diǎn),因?yàn)樗奶卣饕子谔崛『捅容^。但是,對(duì)于面部的其他部分(尤其是面部無紋理的表面),很難找到匹配點(diǎn)。當(dāng)兩個(gè)相機(jī)圖像的遮擋不同時(shí),匹配會(huì)更加復(fù)雜。目前,相機(jī)陣列作為深度傳感器的魯棒性仍然是一個(gè)具有挑戰(zhàn)性的問題。
三種深度感測(cè)技術(shù)的對(duì)比
●整體表現(xiàn)
對(duì)于深度感測(cè),最重要的指標(biāo)是深度精度。結(jié)構(gòu)光具有最佳的深度精度性能,而相機(jī)陣列往往具有最大的深度誤差。
就深度感測(cè)范圍而言,結(jié)構(gòu)光的范圍最短,而ToF的范圍取決于光源的發(fā)射功率。例如,智能設(shè)備可能只需要幾米的距離,而自動(dòng)駕駛汽車則需要幾百米。同樣,攝像機(jī)陣列的測(cè)量范圍取決于兩個(gè)攝像機(jī)之間的空間。對(duì)于常規(guī)攝像機(jī)陣列,最佳性能測(cè)量范圍通常在10m左右,盡管也顯示了某些具有極窄空間的特殊攝像機(jī)陣列可以在1m左右測(cè)量深度。
對(duì)于深度圖分辨率,結(jié)構(gòu)光的性能優(yōu)于ToF,因?yàn)榭梢跃_控制結(jié)構(gòu)發(fā)光圖案并精確捕獲其反射圖案。從理論上講,攝像機(jī)陣列具有良好的分辨率,但這是基于兩個(gè)圖像中的完美點(diǎn)匹配。使用非理想的點(diǎn)匹配(如光滑表面)時(shí),分辨率會(huì)降低。
最后,我們需要考慮對(duì)環(huán)境亮度的限制。結(jié)構(gòu)光需要黑暗的環(huán)境,而ToF傳感器由于快速發(fā)展的背景消除技術(shù)而可以承受更大范圍的環(huán)境亮度。對(duì)于攝像機(jī)陣列,明亮的環(huán)境效果最佳。在黑暗的房間中,相機(jī)陣列捕獲的圖像會(huì)變得嘈雜,并且對(duì)比度變差,因此點(diǎn)匹配變得極為困難,從而導(dǎo)致深度估計(jì)不準(zhǔn)確。
●成本