除此之外,在室外的一些定位當(dāng)中,可以用關(guān)鍵點(diǎn)回歸的方法去回歸路牌的定點(diǎn)。可以通過這個(gè)點(diǎn)反饋在地圖上,更加精確地知道我們實(shí)時(shí)的位置。對(duì)路牌來說,2D 目標(biāo)檢測(cè)并不能全面描述其信息,因?yàn)閳D像中有很多傾斜的路牌。通過點(diǎn)回歸的方式,可以清晰地得到它在圖像中的真實(shí)形狀與位置。通過一些攝像機(jī)的成像原理,或其他的修正手段,可以把這個(gè)位置信息投影到真實(shí)的三維信息當(dāng)中去,更好地幫助我們確定車輛自身在三維世界當(dāng)中的位置。
在圖象當(dāng)中做二維 bounding box 之或做三維bounding box 的目標(biāo)檢測(cè),點(diǎn)和點(diǎn)之間的關(guān)系后剩下的頂點(diǎn)其實(shí)就可以看做是關(guān)鍵點(diǎn),去掉的這個(gè)關(guān)系就是它的框,也就是它的連接關(guān)系。所以,去掉連線之后,就可以看成一個(gè)點(diǎn)回歸的問題。做目標(biāo)檢測(cè)或者是做三維目標(biāo)檢測(cè)當(dāng)中,比較重要的研究問題是如何把這個(gè)點(diǎn)回歸的問題做得更精確。有很多人用一些模板的方式,比如說像目前百度的 Apollo 2.5 當(dāng)中,其實(shí)有一個(gè)模式是相當(dāng)于把這邊真實(shí)的三維的候選做了很多匹配,看哪個(gè)跟檢測(cè)出來的更相近或者更相匹。
這個(gè)方法,其他公司也有類似的狀況,在做點(diǎn)回歸的時(shí)候,都是直接在圖片當(dāng)中做三維的點(diǎn)回歸,因?yàn)槎S的點(diǎn)回歸是比較相似的。我們可以看到在比較遠(yuǎn)處時(shí)候,就直接二維回歸,在稍微近一點(diǎn)的時(shí)候,可以做三維的點(diǎn)回歸。因?yàn)樵谶h(yuǎn)處的時(shí)候,這個(gè)側(cè)面是很難看出來的,在相對(duì)比較近的時(shí)候,可以精確地描述。目標(biāo)車輛下面這個(gè)斜邊代表著它的航向角,這個(gè)航向角和公共的航向角定義不太一樣,相當(dāng)于這個(gè)車身的航向角,這個(gè)航向角對(duì)我們來說很主要的,可以判斷出或者是輔助我們判斷出前方車輛運(yùn)動(dòng)的趨勢(shì)或者是運(yùn)動(dòng)的范圍。
因?yàn)榻Y(jié)合多幀信息,這個(gè)航向角會(huì)有變化的曲線,我們根據(jù)這個(gè)曲線可以預(yù)測(cè)出這個(gè)車輛是否有變道,或者是否有急轉(zhuǎn)這樣的趨勢(shì)。通過這樣的信息,可以幫助決策模塊做一些重要的決策。比如預(yù)測(cè)出前方車輛要變道插隊(duì)了,防插隊(duì)也是我們自動(dòng)駕駛當(dāng)中遇到的很重要的問題;比如很多車,做 L1 和 L2 的方案當(dāng)中,在嘗試編程當(dāng)中,前方車輛如果要插隊(duì),對(duì)我們自動(dòng)駕駛的車輛來說很難識(shí)別。前面的車有沒有插隊(duì)的趨勢(shì),一般都是是有一定經(jīng)驗(yàn)的司機(jī)能夠準(zhǔn)確或者是最高精度地判斷出來。因?yàn)槭欠衲軌蚺袛喑銮胺杰囕v司機(jī)有插隊(duì)趨勢(shì),對(duì)于我們正常的人類司機(jī)來說,也造成了很多的事故。因?yàn)榕袛嗖怀鰜砬懊娴能囕v是否有插隊(duì)的趨勢(shì),而前面的很多新手司機(jī)突然變道,這樣就會(huì)發(fā)生一些比較經(jīng)典的擦碰或者是追尾事故。這類事故放在自動(dòng)駕駛車輛上來說,理論上可以做到比人類更高的精度。
用點(diǎn)回歸的方式,可以去解決在一些場(chǎng)景當(dāng)中三維目標(biāo)檢測(cè)的問題。對(duì)于點(diǎn)回歸來說,需要根據(jù)周圍的關(guān)系去判斷這個(gè)點(diǎn)是不是應(yīng)該在這里。而在三維檢測(cè)的時(shí)候,經(jīng)常會(huì)出現(xiàn)目標(biāo)不全或者是目標(biāo)存在一定遮擋的問題,這就需要我們?nèi)ピ黾铀母惺芊秶?,或者是增?qiáng)它在這方面的處理能力,這是可以去有效規(guī)避的事情。
可以用一些小的網(wǎng)絡(luò)去做,比如說這張表當(dāng)中描述的是用不同的方法去回歸點(diǎn)不同的任務(wù),如人體、箭頭、車位線、路牌、車輛等,還有很多其他類型的點(diǎn)回歸任務(wù),都可以用這種方法,總體上來說,都是可以去解決,但是處理的能力是有限的。比如在車輛的關(guān)鍵點(diǎn)上來說,車輛的關(guān)鍵點(diǎn)回歸的時(shí)候,整體回歸的效果一般,因?yàn)檐囕v本身也是一個(gè)比較難的問題,整體的精度也比 2D 的要低很多。目前精度比較高的方法仍然是以激光雷達(dá)數(shù)據(jù)為輔助的方法,以視覺為主的方法目前還沒有打進(jìn)前三名,甚至只能排前十。
另外一方面,在用經(jīng)典的 mask-rcnn 方法去做這類問題的時(shí)候,也受限于剛才所說的精度問題,下采樣的倍數(shù)越高,回歸得到的結(jié)果精度就越難以保證。這方面用到了很多級(jí)聯(lián)的方法來提高精度,比如先用一個(gè) 28 x 28 的,再用 56 x 56 的,再用一個(gè) 112 x 112 的,這樣精度逐漸提高了,但是它的運(yùn)算量并沒有被提高,或者復(fù)雜度并沒有被提高,不是乘的關(guān)系而是加的關(guān)系,用兩者的策略做的事情。這在我們的算法工程師或者是同行業(yè)當(dāng)中,應(yīng)該不是什么難的問題。