幾個(gè)月前,顯示屏霸主三星聯(lián)合首爾大學(xué),設(shè)計(jì)出了一款超薄交互式全息顯示屏。只要按方向鍵,屏幕上的海龜馬上就朝特定方向游起來了。三星表達(dá),這款顯示屏可以從多個(gè)角度提供高辨別率的、真實(shí)度極高的 3D 視頻,有朝一日還會(huì)集成得益機(jī)。
本認(rèn)為這差不多夠硬核了,沒想到的是,在索尼爸爸的支(資)持下,MIT 的一組研究人員宣稱差不多用手機(jī)生成了 3D 全息圖!
想要對(duì)一張圖片上的任意物體進(jìn)行對(duì)焦,只需短短幾毫秒。
2021 年 3 月 10 日,相關(guān)研究成果發(fā)表于 Nature,題為 Towards real-time photorealistic 3D holography with deep neural networks(使用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)逼確實(shí)實(shí)時(shí)三維全息)。
何謂“全息”?
第一來了解一下所謂的“全息”。
實(shí)質(zhì)上,全息投影是一種 3D 技術(shù),英文名稱為 Holographic Projection,其中 holo 源于希臘語,意為“完全的信息”。
“完全的信息”要傳遞,需要下面這兩步:
其原理可以這樣簡單明白:全息圖的每個(gè)像素上散射了光波,這些光波相互作用,就能産生一種深度上的錯(cuò)覺,呈現(xiàn)出一種立體感。
基于此,全息投影又稱虛擬成像。
正如 IEEE Spectrum 所說:
值得一提的是,人們?cè)谟^看 3D 全息圖像時(shí)不也許覺得眼睛勞累,這與傳統(tǒng)的 3D 顯示(使用 2D 圖像產(chǎn)生深度錯(cuò)覺)不同。
彩色 3D 全息圖實(shí)時(shí)生成
即使三星已經(jīng)設(shè)計(jì)出了全息顯示屏,使得全息投影技術(shù)在硬件上有了重要突破,但不可否認(rèn),要在電子設(shè)備上顯示全息數(shù)據(jù),仍是一項(xiàng)重大挑戰(zhàn)。
IEEE Spectrum 表達(dá),每個(gè)全息圖都意味著編碼大批的數(shù)據(jù),只有如此才能打造出深度錯(cuò)覺。因此,生成全息視頻通常需要一臺(tái)超算的算力。
此前就有科研團(tuán)隊(duì)嘗試過一些解決策略,希望減少所需的計(jì)算量,例如用簡單的查找表取代複雜的物理模擬——然而,這往往以犧牲圖像質(zhì)量爲(wèi)代價(jià)。
而 MIT 的思路則是設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)。
的確來講,他們打造了一種基于深度學(xué)習(xí)的 CGH(computer-generated holography,計(jì)算機(jī)生成全息術(shù),可通過對(duì)衍射和干涉的數(shù)值模擬實(shí)現(xiàn)高空間角度辨別率的三維投影)管道,該管道能夠從單一 RGB(注:工業(yè)界的一種顏色標(biāo)準(zhǔn),通過對(duì)紅(R)、綠(G)、藍(lán)(B)三色通道的變化及其相互間的疊加來獲得形形色色的顏色)深度圖像實(shí)時(shí)合成逼確實(shí)彩色 3D 全息圖。
研究團(tuán)隊(duì)使用了一系列可訓(xùn)練的張量來模擬人類處置視覺信息的過程,建立了一個(gè)包含著 4000 對(duì)(每一對(duì)基本上一張 RGB 深度照片及其對(duì)應(yīng)的 3D 全息圖,如下圖所示)計(jì)算機(jī)生成圖像的數(shù)據(jù)庫。
最后,研究團(tuán)隊(duì)做到了在短短幾毫秒內(nèi)就能創(chuàng)建出無斑點(diǎn)、自然、高辨別率的 3D 全息圖。
據(jù)了解,卷積神經(jīng)網(wǎng)絡(luò)的內(nèi)存不到 620 KB,能保證單個(gè)消費(fèi)級(jí)圖形處置單元均勻每秒生成 60 幅辨別率 1920 × 1080 的全息圖。
使用低功耗的人工智能加速芯片,該卷積神經(jīng)網(wǎng)絡(luò)能在移動(dòng)設(shè)備和疆界設(shè)備(在谷歌 edge TPU 上每秒生成 2 張全息圖)上交互運(yùn)行。
MIT 的方法究竟有何重要意義,事實(shí)上可以通過下面那個(gè)比喻來明白:
計(jì)算機(jī)生成全息圖的過程就像是在切蛋糕。
使用查找表生成全息圖,就像是在切蛋糕之前標(biāo)記每塊蛋糕的疆界一樣。使用物理模擬來計(jì)算空間中每個(gè)點(diǎn)的外觀,類似于用 8 次精確切割切出 8 塊蛋糕。盡管通過省掉計(jì)算切割位置的步驟可以省一些時(shí)間,但這依然是個(gè)耗時(shí)的大工程。而 MIT 使用深度學(xué)習(xí),實(shí)質(zhì)上實(shí)現(xiàn)了用 3 次精確切割就將蛋糕切成 8 塊。
未來,研究團(tuán)隊(duì)或許還將增加眼動(dòng)追蹤技術(shù)加快系統(tǒng)運(yùn)行速度,這項(xiàng)成果后續(xù)也將在 VR、AR 耳機(jī)等土地中獲得應(yīng)用。
關(guān)于作者
該論文來自 MIT 計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)& 電子工程與計(jì)算機(jī)科學(xué)系,通訊作者為 Liang Shi 和 Wojciech Matusik。
雷鋒網(wǎng)注重到,Wojciech Matusik 為 MIT CSAIL & 電子工程與計(jì)算機(jī)科學(xué)系傳授。
Wojciech Matusik 傳授要緊研究土地為計(jì)算機(jī)圖形學(xué)、計(jì)算設(shè)計(jì)和制造。他于 1997 年獲加州大學(xué)伯克利分校 EECS(電子工程與計(jì)算機(jī)科學(xué))學(xué)士學(xué)位,于 2001 年獲 MIT EECS 碩士學(xué)位,于 2013 年獲 MIT 計(jì)算機(jī)圖形學(xué)博士學(xué)位。
關(guān)于上述研究,Wojciech Matusik 傳授表達(dá):
另外論文一作為 Liang Shi(史亮)。