來自 MIT 的研究者使用深度學(xué)習(xí)推出了 3D 全息圖生成新方法,可認(rèn)為VR、3D 打印、醫(yī)學(xué)成像等創(chuàng)建全息圖,同時能夠在智專家機上運行。
提起三維場景可視化,虛擬現(xiàn)實(VR)是最常見的一種技術(shù)。但通過多年宣傳,VR 頭戴式耳機仍未成為電視或計算機屏幕上觀看視頻的必備設(shè)備。一個重要的原因是 VR 會讓用戶感覺不適。盡管用戶實際上是注視著 2D 顯示器,但 VR 會產(chǎn)生 3D 觀看的錯覺,從而使人視覺勞累和感覺頭暈惡心。更好的 3D 可視化解決方案也許在于一種產(chǎn)生了六十年的技術(shù):全息圖。
全息圖能夠杰出地展現(xiàn) 3D 世界,同時它的出現(xiàn)結(jié)果非常漂亮。全息圖可以依據(jù)觀看者的位置提供變化的視角,并同意眼睛調(diào)整焦深以交替聚焦在前景和背景上。
長期以來,研究者們一直在試圖制造出計算機生成的全息圖,但傳統(tǒng)上,該過程需要一臺超級計算機來進行物理模擬,這非常耗時,並且産生的結(jié)果真實感不高。
邇來,來自麻省理工學(xué)院的研究者已經(jīng)開發(fā)出一種幾乎可以馬上生成全息圖的研究方法。研究者表達:「基于深度學(xué)習(xí)的方法非常高效,使得新方法瞬間就能夠在筆記本電腦上運行?!?/p>
研究團隊的要緊成員,MIT 電氣工程與計算機科學(xué)系(EECS)的博士生 Liang Shi 說:「以前人們認(rèn)為,使用現(xiàn)有的消費級硬件還不也許進行實時 3D 全息計算的。人們經(jīng)常說:商用全息顯示器將在未來十年左右出現(xiàn),但這種說法差不多存在了數(shù)十年。」
Shi 認(rèn)為該團隊稱為「張量全息術(shù)」的新方法將最后實現(xiàn)這一「十年目標(biāo)」。這一進展也許會推動 VR 和 3D 打印等土地引入全息技術(shù)。該研究的論文現(xiàn)已發(fā)表在《Nature》上,索尼對部分研究提供了支持。
論文鏈接:https://www.nature.com/articles/s41586-020-03152-0
代碼地址:https://github.com/liangs111/tensor_holography
追求更好的 3D 全息圖
照片可以忠實地再現(xiàn)場景的顏色,但最后產(chǎn)生的是一個平面圖像。相比之下,全息圖對每一個光波的亮度和相位都進行編碼。這種組合可以更加真實地描述場景的視差和深度。莫奈的《睡蓮》可以突出畫作的色彩感,而全息圖可以讓作品變得栩栩如生,出現(xiàn)出每一筆特殊的 3D 質(zhì)感。
但全息圖的制作與共享仍是一個挑戰(zhàn)。
全息圖從 20 世紀(jì)中期結(jié)束發(fā)展,早期全息圖是用光學(xué)原理記載的。這種技術(shù)需要將激光分為兩部分,一半用來照亮被攝體,另一半用作光波相位的參考,該參考產(chǎn)生了全息圖特有的深度感。產(chǎn)生的圖像基本上靜態(tài)的,不能捕捉運動。很難復(fù)制和共享。
而計算機生成全息術(shù)通過模擬光學(xué)裝置躲開了這些挑戰(zhàn),但是該過程也許是一個就算難題。Shi 說:「由于場景中每個點都有不同的深度,因此無法對所有點都使用雷同的操作,這大大增加了龐大性?!怪笓]集群超級計算機運行這些基于物理的模擬也許需要幾秒鐘或幾分鐘來獲得一張全息圖像。另外,現(xiàn)有的算法不能精確地對遮擋物(occlusion)進行建模。
因此,Shi 的團隊采取了不同的方法:「讓計算機自學(xué)物理。」
他們使用深度學(xué)習(xí)來加速計算機生成全息術(shù),從而實現(xiàn)實時全息圖的生成。該團隊設(shè)計了一個卷積神經(jīng)網(wǎng)絡(luò):這是一種處置技術(shù),使用一系列可訓(xùn)練張量來粗略模擬人類處置視覺信息的方法。通常,訓(xùn)練神經(jīng)網(wǎng)絡(luò)需要比較大的、高質(zhì)量的數(shù)據(jù)集,但此前 3D 全息圖土地并不存在如此的數(shù)據(jù)集。
該團隊建立了一個包含 4000 對計算機生成圖像的數(shù)據(jù)庫。每一對都匹配一張圖片,圖像信息包括每個像素的顏色和深度信息,這些信息與全息圖相對應(yīng)。研究者使用外形和顏色龐大多變的場景,像素的深度從背景到前景均勻分布,并使用一組基于物理的新型計算來處置遮擋,產(chǎn)生了逼確實訓(xùn)練數(shù)據(jù)。接下來,算法結(jié)束發(fā)揚作用。
數(shù)據(jù)集樣例
通過學(xué)習(xí)每個圖像對,張量網(wǎng)絡(luò)調(diào)整了其計算參數(shù),從而逐步增強了其創(chuàng)建全息圖的能力。完全優(yōu)化的網(wǎng)絡(luò)的運行速度比基于物理的計算快了多個數(shù)量級。這種功效讓研究團隊也感覺驚訝。
Matusik 說:「它的表現(xiàn)讓我們很驚奇。在短短幾毫秒內(nèi),張量全息術(shù)可以從含有深度信息的圖像中生成全息圖,其中深度信息是由典型的計算機生成圖像提供的,可以通過多機位的設(shè)置或激光雷達傳感器(這兩者基本上一些新型智專家機的標(biāo)準(zhǔn)配置)計算出來。
這一進展為實時 3D 全息攝影鋪平了道路。更重要的是,壓縮型張量網(wǎng)絡(luò)僅需要不足 1 MB 的內(nèi)存。這一點非常適合現(xiàn)代智專家機。
微軟第一光學(xué)架構(gòu)師 Joel Kollin 說:「這項研究表明真正的 3D 全息顯示器是實用的,只需要適當(dāng)?shù)挠嬎阈枨?。該研究的圖像質(zhì)量比此前有了顯著的改善,將提升觀看者的真實感和舒適感?!?/p>
Kollin 還暗示:「全息顯示器可以依據(jù)觀看者的眼部定制,矯正眼睛的像差。」
其他應(yīng)用
實時 3D 全息技術(shù)還有助于 VR、3D 打印等系統(tǒng)的發(fā)展。研究團隊表達,新系統(tǒng)可以幫助 VR 觀眾沉醉在更真實的場景中,同時排除眼睛勞累和長期使用 VR 的其他副作用。這項技術(shù)可以很容易地應(yīng)用在調(diào)制光波相位的顯示器上。目前,大多數(shù)價格有理的消費級顯示器只調(diào)節(jié)亮度,但如果廣泛采用 3D 全息技術(shù),相位調(diào)制顯示器的成本會下降。
另外,3D 全息技術(shù)還可以促進立體 3D 打印技術(shù)的發(fā)展。事實證明,這種技術(shù)比傳統(tǒng)的逐層 3D 打印更快、更精確。其他的應(yīng)用還包括用于顯微鏡、醫(yī)療數(shù)據(jù)可視化以及具有特殊光學(xué)特征的平面設(shè)計。
Matusik 說:「這是一個巨大的飛躍,可以完全轉(zhuǎn)變?nèi)藗儗θ⒓夹g(shù)的態(tài)度,我們覺得神經(jīng)網(wǎng)絡(luò)是為這項任務(wù)而生的?!?/p>
作者介紹
該論文的第一作者是 MIT 的計算機科學(xué)與人工智能實驗室(CSAIL)的博士生史亮。他本科卒業(yè)于北京航空航天大學(xué),2016 年獲得斯坦福大學(xué)電氣工程碩士學(xué)位。史亮的研究興致包括 VR/AR、計算攝影、計算制造、計算機圖形學(xué)、機器學(xué)習(xí)等。
第二作者是 MIT CSAIL 博士生李北辰。他本科卒業(yè)于清華大學(xué)。他的研究興致是機器學(xué)習(xí)在計算機圖形學(xué)、計算設(shè)計和計算制造中的跨學(xué)科應(yīng)用。
參考鏈接:https://news.mit.edu/2021/3d-holograms-vr-0310
對于企業(yè)和開發(fā)者,如何加滿機器學(xué)習(xí)技能點,更輕松地上手機器學(xué)習(xí)?
3月15日,亞馬遜雲(yún)科技機器學(xué)習(xí)高級國產(chǎn)產(chǎn)品經(jīng)理孟和將帶來線上分享。本次分享從供應(yīng)鏈和自動駕駛領(lǐng)域的相關(guān)應(yīng)用案例視頻出發(fā),詳細(xì)講解亞馬遜雲(yún)科技將提供哪些關(guān)鍵資源,幫助開發(fā)者團隊提高機器學(xué)習(xí)技能,從而更好地應(yīng)用AI。