由此,假定我們站在特斯拉和馬斯克的角度來思考:作為自動駕駛汽車品牌的領(lǐng)導者和自動駕駛概念的最大商業(yè)受益者,特斯拉已經(jīng)有一套視覺攝像頭方案量產(chǎn),獲得了市場的認可,同時積累了大量的數(shù)據(jù);作為攝像頭自動駕駛最成功的商業(yè)案例,特斯拉對單獨攝像頭方案充滿信心,并輸出這個信心給市場和用戶,是完全必須和應該的邏輯。相反,如果這個時候站出來說多傳感器融合,多少有可能被“誤讀”成單獨攝像頭方案還有些許缺陷和不足,將來需要其他傳感器來補充。
對于汽車這種長生命周期的產(chǎn)品而言,這種信息導向,很可能打擊一些潛在用戶的買車欲望,而客觀上市場上又確實沒有性價比足夠高的固態(tài)激光雷達可以供特斯拉采用,作為一個成熟、務實的著名汽車廠,這顯然是特斯拉時下不希望看到的“死循環(huán)”局面。
既然人類可以只靠肉眼這樣單一傳感器完成汽車駕駛,為什么AI不能通過視覺攝像頭完成自動駕駛?
要想回答這個問題,我們還要對人眼的視覺識別進行稍微深入一點兒的分析。
首先,人眼的視覺是個高度智能化、自動化的復雜系統(tǒng),具有定焦、對焦、變焦、多區(qū)域視覺等等功能。
比如駕駛過程中,我們的視線會在遠景、近景切換焦距和成像,并且在即便是近景的情況下,對遠景的目標,特別是運動目標也具備檢測功能,從而在遠處有運動目標的時候,通過調(diào)整眼球晶狀體將成像面快速切換到遠距離目標。
與此同時,我們對于需要特別關(guān)注的目標,比如路面障礙物,我們可以“定睛一看”,進行特定區(qū)域的細致成像,提供局部目標視覺分辨率。
此外,我們還可以通過頸部、頭部的動作,調(diào)整我們眼睛的視角和視覺范圍,避免視覺死角,同時把視網(wǎng)膜有限的成像分辨率用在特別關(guān)注的目標區(qū)域的成像。
我們還有高度智能化、自動化的瞳孔“光圈”,控制眼睛的進光量,適用于不同的外界光照情況。
而車載自動駕駛電子攝像頭,基本都是固定焦距、固定FOV、固定光圈、固定位置安裝的,完全不具備人眼的自動化和靈活性。這也解釋了為什么人類可以兩只眼睛“包打天下”,而自動駕駛要用十幾個甚至二十幾個攝像頭的原因。
舉個例子,安裝在車頭位置的前向攝像頭就需要配置多個,用以負責近距離、中距離,遠距離的視覺成像。之所以采用多攝像頭分工,而不是采用人眼這種“通用”攝像頭,除了成本的考量之外,關(guān)鍵還是要實現(xiàn)人眼類似的智能化、自動化,必然使用大量電機、機械運動、控制部件,比如調(diào)整焦距的電機,在汽車這種使用環(huán)境里是非常有技術(shù)挑戰(zhàn)的。原因是,汽車的使用環(huán)境高低溫工作范圍大,運動與震動強烈,而無故障運行時間要求很長。
小結(jié)一下,由于汽車使用環(huán)境的嚴酷性,大家最終選擇了“固態(tài)”攝像頭,而當前這個“固態(tài)”攝像頭的智能化、自動化、靈活性水平,和人眼相對比還有很大的差距。
另外,在測量距離這個指標上,攝像頭視覺甚至包括人眼,對比起激光雷達都有巨大的劣勢。因為從獲取距離(深度)信息的原理上,不同于激光雷達的直接測量法,視覺測距的實際精度和準確性都與被測物體,以及背景圖像的特點有很大的相關(guān)性,這種測距原理,在特殊的背景和目標場景下,就有可能會出現(xiàn)測距算法失效的可能性。而人眼還可以通過歪歪頭等“機械”動作,調(diào)整一下視角,獲取不同角度的圖像,提高三角測距法的準確性。
即便如此,人眼對距離感知,對低照度也有先天的不足。好在從進化論的角度,人眼的視覺能力足以“應付”我們進化歷史上漫長的“靠腿運動”的“低速” 時代。而汽車這種高速運動的機器誕生的時間,與人類的歷史相比極其短暫。
那么,在人類的視覺還沒有進化出(或許也不可能進化出)新的傳感器功能之前,我們借用一下激光雷達、毫米波雷達這樣有專長的傳感器測測距離,也許是合理和聰明的選擇。就像我們在沒有野生動物夜視能力的情況下,可以借用手電筒、汽車大燈,來走暗夜中的漫漫長路一樣。
所以,多傳感器融合對自動駕駛應該是一個合理和幾乎必然的趨勢。至于哪種傳感器在自動駕駛算法上起的的作用更大,可能不是傳感器企業(yè)最關(guān)心的事情,而是做算法的人更關(guān)心的事情。
2、傳感的原理:攝像頭、毫米波雷達和激光雷達