視覺(jué)是人類與外界交流最重要的感知方式。過(guò)去十年里仿生機(jī)器視覺(jué)迅速發(fā)展,如今人工系統(tǒng)已經(jīng)具備從圖像和視頻“看見”有價(jià)值信息的能力,不過(guò)相比人眼視覺(jué)效率還有一定的差距。奧地利維也納理工大學(xué)Lukas Menne等研究人員最近在《自然》中發(fā)布了一種媲美于人腦的視覺(jué)系統(tǒng)設(shè)計(jì),經(jīng)過(guò)訓(xùn)練后能實(shí)現(xiàn)對(duì)簡(jiǎn)單圖像的納秒級(jí)分類。
數(shù)碼相機(jī)所用的現(xiàn)代圖像傳感器基于半導(dǎo)體(固態(tài))技術(shù),并于二十世紀(jì)七十年代初問(wèn)世。主要分為兩種類型:電荷耦合器件(charge-coupled devices)和主動(dòng)式像素傳感器(active-pixel sensors)。它們可以“忠實(shí)地”從環(huán)境中捕獲視覺(jué)信息,但會(huì)生成大量冗余數(shù)據(jù)。通常的方式是將大量光學(xué)信息轉(zhuǎn)換為數(shù)電格式,然后傳遞到計(jì)算單元進(jìn)行圖像處理。
在傳感器和處理單元之間大量數(shù)據(jù)移動(dòng)會(huì)引起延遲和高功耗等問(wèn)題。隨著成像速度和像素?cái)?shù)量的增加,帶寬帶來(lái)的限制使得難以將所有內(nèi)容快速返回到中央計(jì)算機(jī)或基于云的計(jì)算機(jī)并進(jìn)行實(shí)時(shí)處理和決策,這對(duì)一些對(duì)延遲非常敏感的應(yīng)用如無(wú)人駕駛汽車、機(jī)器人或工業(yè)制造等尤為重要。
一種更好的解決方案是將一些計(jì)算任務(wù)轉(zhuǎn)移到計(jì)算機(jī)系統(tǒng)外部邊緣傳感設(shè)備,從而減少不必要的數(shù)據(jù)移動(dòng)。由于傳感器的輸出通常是模擬信號(hào)(連續(xù)變化),模擬處理勝于數(shù)字處理:眾所周知,模數(shù)轉(zhuǎn)換既耗時(shí)又耗能。
為了模擬大腦對(duì)信息的有效處理,生物神經(jīng)形態(tài)工程采用了一種計(jì)算架構(gòu)。該架構(gòu)采用高度互連的元素(神經(jīng)元,通過(guò)突觸連接),從而實(shí)現(xiàn)并行計(jì)算(見圖1a)。這些人工神經(jīng)網(wǎng)絡(luò)可以通過(guò)迭代學(xué)習(xí)周圍環(huán)境——例如,為其提供已知示例展示,對(duì)事物進(jìn)行分類(監(jiān)督學(xué)習(xí));或者,無(wú)需額外信息就能通過(guò)輸入數(shù)據(jù)識(shí)別對(duì)象的特征結(jié)構(gòu)(無(wú)監(jiān)督學(xué)習(xí))。在學(xué)習(xí)期間,算法會(huì)反復(fù)進(jìn)行預(yù)測(cè),并增強(qiáng)或削弱網(wǎng)絡(luò)中的每個(gè)突觸,直到達(dá)到最佳設(shè)置。
圖1:在視覺(jué)傳感器內(nèi)進(jìn)行計(jì)算,實(shí)現(xiàn)智能高效的預(yù)處理。(a)傳統(tǒng)人工智能(AI)視覺(jué)傳感器從光敏傳感器收集信號(hào),利用模數(shù)轉(zhuǎn)換器(ADC)將模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào),放大后輸入到外部人工神經(jīng)網(wǎng)絡(luò)(ANN)——連接可以進(jìn)行調(diào)整的互連計(jì)算單元(圖中用圓形表示)層,經(jīng)過(guò)訓(xùn)練后,此網(wǎng)絡(luò)可以執(zhí)行諸如圖像分類之類的任務(wù)。ANN輸入層接收的信號(hào)是編碼后的簡(jiǎn)單物理元素(圖中用點(diǎn)和線表示);在后續(xù)層中,這些已優(yōu)化為中級(jí)特征(圖中用簡(jiǎn)單形狀表示);在輸出層上形成精細(xì)圖像(圖中用3D形狀表示)。整體響應(yīng)可能是又慢又耗能。(b)Mennel等研究人員設(shè)計(jì)的系統(tǒng)中,芯片上的互連傳感器(圖中用正方形表示)不僅可以收集信號(hào),還可以作為ANN來(lái)識(shí)別簡(jiǎn)單功能,從而減少了傳感器和外部電路的冗余數(shù)據(jù)移動(dòng)。
Mennel等研究人員直接在圖像傳感器加入了人工神經(jīng)網(wǎng)絡(luò)。他們?cè)谛酒蠘?gòu)建了光電二極管網(wǎng)絡(luò),這些光電二極管是對(duì)光敏感的微型單元,每個(gè)單元中有幾層二硒化鎢(WSe2)原子層。通過(guò)調(diào)節(jié)施加在二極管上的電壓,半導(dǎo)體器件對(duì)光的響應(yīng)程度發(fā)生變化,從而實(shí)現(xiàn)對(duì)每個(gè)二極管靈敏度的分別調(diào)節(jié)。實(shí)際上,這將光電傳感器網(wǎng)絡(luò)變成了神經(jīng)網(wǎng)絡(luò)(見圖1b),能夠執(zhí)行簡(jiǎn)單的計(jì)算任務(wù)。改變光電二極管的光響應(yīng)能力則改變網(wǎng)絡(luò)的連接強(qiáng)度(突觸權(quán)重)。因此,該器件實(shí)現(xiàn)了光學(xué)傳感與神經(jīng)形態(tài)計(jì)算的結(jié)合。
作者將光電二極管排列成九個(gè)像素的正方形陣列,每個(gè)像素有三個(gè)二極管。當(dāng)圖像投影到芯片上時(shí),會(huì)產(chǎn)生不同的二極管電流,再進(jìn)行組合和讀取。硬件陣列提供了一種模擬計(jì)算形式:每個(gè)光電二極管都會(huì)產(chǎn)生與入射光強(qiáng)度成比例的輸出電流,并且根據(jù)基爾霍夫定律(電路電流所遵循的基本規(guī)律)將沿行或列的電流值求和。
圖2:光電二極管排列成九像素正方形陣列
接著對(duì)陣列進(jìn)行執(zhí)行任務(wù)的訓(xùn)練。芯片陣列產(chǎn)生的電流與預(yù)測(cè)電流(對(duì)于給定任務(wù),陣列正確響應(yīng)圖像應(yīng)產(chǎn)生的電流)的差異,并用于調(diào)整下一次訓(xùn)練周期的突觸權(quán)重。這個(gè)學(xué)習(xí)階段會(huì)占用時(shí)間和計(jì)算資源,但是一旦經(jīng)過(guò)訓(xùn)練,該芯片將迅速執(zhí)行其任務(wù)。
神經(jīng)網(wǎng)絡(luò)可以采用不同算法,作者在文中演示了兩種神經(jīng)形態(tài)功能。第一種是分類:3 x 3像素陣列可以將圖像分類為三個(gè)簡(jiǎn)化字母“n、v、z”對(duì)應(yīng)的三個(gè)類別之一,從而以納秒為單位識(shí)別該字母。這樣的簡(jiǎn)單陣列只是為了概念證明,如果按比例增加陣列的大小,則可以進(jìn)一步擴(kuò)展,識(shí)別更復(fù)雜的圖像。