如果你想開發出一種超高速物體識別系統,比如檢測導彈或者路上的正在跑的汽車的話,那只用一個連著數碼相機的計算機是遠遠不夠的。
加州大學洛杉磯分校的電氣工程師 Aydogan Ozcan 希望改變這種情況,所以他的研究團隊同時使用了機器學習技術、光學工具和 3D 打印技術,開發出了可高速識別物體的識別系統。不像普通的計算機,這種系統不需要提供外接電源,只需要提供初始光源和一個簡單的探測器即可。
研究團隊首先提出了一種全光學的深度學習框架——衍射深度神經網絡(Diffractive Deep Neural Network,D2NN),該架構采用基于深度學習算法的無源衍射層(passive diffractive layers)設計,經誤差反向傳播法(error back-propagation method)訓練后,能夠以接近光速的高速處理能力,實現多種機器學習的復雜功能。團隊最后采用 3D 打印制造出了這種光學架構,實現了手寫數字和時尚產品的圖像分類。該成果已經發表于《Science》雜志上。
圖丨論文:All-optical machine learning using diffractive deep neural networks(利用衍射深度神經網絡的全光機器學習)
“構建由光學元件堆疊成的固態人工神經網絡是一種非常有創新性的方法,”瑞士洛桑聯邦理工學院光學與電氣工程學院教授 Demetri Psaltis 表示。
蒙特利爾大學研究機器學習和神經網絡的 Roland Memisevic 和 Yoshua Bengio 團隊的研究生 Olexa Bilaniuk 指出,這一成果新穎之處不在深度學習部分,而是光學工程部分和使用 3D 打印“人工神經網絡”的能力。“以前構建這樣一個光學網絡的工作要么僅僅停留在理論上,要么也只能構建一個又小有簡單的系統,”他補充道。
圖丨Aydogan Ozcan
Ozcan 團隊希望使用該系統來模仿各種動物的眼睛,這些動物的眼睛處理光線和圖像的方式與人眼不同。如果在光學顯微鏡中使用的是較短波長的光的話,這一系統也可以用于顯微鏡應用和醫學成像。
為了建立他們的物體識別系統,Ozcan 和他的同事們首先使用了深度學習的方法。目前深度學習常用于模式識別領域,給定音頻或視覺數據,計算機可以應用深度學習技術訓練學習識別特定的模式,然后,利用算法習得的某些規則,來對新數據進行預測。
在該研究中,研究人員訓練其光學網絡模型來識別不同的數據類型的數據,包括從 0 到 9 的手寫數字識別和各種服裝的圖像的識別。在每種情況下,計算機都創建了一個模型,該模型由多個像素層組成。每個像素都可以傳輸光,像素之間光的連接表示某一神經元與本層或相鄰層中的其他神經元的連接。
對于上述提到的兩種數據類別,研究人員使用五層 3D 打印塑料對仿真模型進行物理再現,然后使用激光——一種 0.4 THz 的單色光而非可見光來處理每種類型的圖像。
3D 打印的多層神經網絡接收物體表面反射的光,光以光速經過神經網絡的固態結構傳播,從模型的出口射出的光射向探測器,預先標定探測器對應的物體或圖片的類別,可以間接判斷所識別的物體或圖片的分類結果。
打印得到的固態模型就像是“連接著的固態大腦,除此之外,光連接神經元,就好像信息在神經元之間流動一樣,”Ozcan 解釋說。
“這是一種非常高效的神經網絡實現,因為一旦被動衍射表面被 3D 打印出來,它們就不會使用任何電力,卻可以以光速處理模型的輸入,沒有任何延遲,”Bilaniuk 說。
研究人員正在努力提高訓練模型的性能。在手寫數字識別實驗中,他們的人工網絡在識別新的手寫數字時準確度約為 91.75%。他們還希望擴大打印的人工網絡的尺寸,目前論文中報道的尺寸為 8 cm×8 cm。“增加更多的層數,我們可以以更高準確率實現更復雜的任務,”Ozcan 表示。
對于 Psaltis 來說,這一工作提出所帶來的問題多于答案:這個系統可以變得更強大和穩定嗎?速度是否還可以提高?建模和 3D 打印的成本是多少?我們如何將這一系統與現有的數字設備結合起來?
根據 Bilaniuk 的說法,如果該系統可以適應常規光線,并能做到小型化,那么潛在的應用可能是手機相機中的人臉識別和自動對焦,而且這種方案并不會像數字設備那樣消耗電池。