真正的 VR 大考是什么:Oculus 首席科學家談人機交互的未來
近日,Oculus 公司首席科學家 Michael Abrash 出席了第三屆環(huán)球大挑戰(zhàn)峰會(Global Grand Challenges Summit)。這場大會贊助者眾多,其中就包括美國國家工程學院,英國皇家工程學院和中國工程院。在此次大會上,Abrash 和與會者分享了他對 VR 的一些深層次看法。下面就是 Abrash 的演講稿,絕對的一刀未剪。本文由雷鋒網(wǎng)編譯自 Oculus 官方博客。
Michael Abrash
很高興能來到這里參加這場 VR 盛會,它確實是一次名副其實的大挑戰(zhàn),大會的持續(xù)時間,技術的深度與廣度都前所未有。此外,它還對我們的生活方式產(chǎn)生了潛在影響。
VR 的歷史可以追溯到 1968 年 Ivan Sutherland 的達摩克利斯之劍(頭戴式電腦)。不過半個世紀之后,我們才真正開始走上探尋 VR 真身的道路。當我們談論起 VR 的未來時,才真正開始意識到它的潛在影響,而這一過程的起點就是人類體驗的本質(zhì)。
我們體驗到的現(xiàn)實其實建立在我們腦海中,其基礎是我們基因中自帶的無數(shù)假設和出生以來的各種經(jīng)驗。當然,還有一些我們感官接收到的零散數(shù)據(jù)。
所有的現(xiàn)實都是虛擬的。
這句話是不是足夠震撼?如果你此前從來沒想過這個命題,恐怕震撼感就沒那么明顯。所以在這里我想再說一遍:其實我們體驗的所謂現(xiàn)實都建立在我們腦海中,其基礎是那些高度不完整的數(shù)據(jù)。通常,這些數(shù)據(jù)能與現(xiàn)實世界緊密吻合,但它并不是現(xiàn)實的字面反應,而是世界最可能狀態(tài)的一個推理而已。
下面我們就通過幾個案例來認識自己,其實我們對現(xiàn)實的看法只不過是最好的猜測罷了。
看到桌子下面的白色方磚和桌子旁邊的黑色方磚嗎?
下面,我們遮住畫中的其他方磚。
事實上,它們的灰度完全相同。
不過,如果把它放在陰影下,方磚從視覺上看就會變成白色,而放在亮光下則會轉為黑色。光強度是一種基于上下文的推理,你的視覺系統(tǒng)會自動完成推理,因此你看到的是白色和黑色而不是灰色。
下面我們舉第二個例子。請你們仔細看這張圖,圖中的兩個桌面哪個更寬?哪個又更長呢?
看出來了嗎?
現(xiàn)在揭曉答案,事實上這兩個桌面的尺寸一模一樣。與上面的光強度概念一樣,桌面的大小也是一種基于文本的推理。
下面的幾個例子娛樂性更強,同時也蘊含了幾個與現(xiàn)實對不上的更高級推理。
顯然,“眼見并不為實”。
一些窗戶上的線索暗示出一個并不存在的觀點,因此你的視覺系統(tǒng)認為窗戶向后旋轉了一半。為了證明這個觀點的正確性,你會覺得吸管直接旋轉通過了窗戶,但這樣的情景其實根本沒發(fā)生。
下面我們來看另一個例子。
這次我們的視覺系統(tǒng)又被欺騙了。
我們的感知系統(tǒng)做了一個相當合理的推理,視頻中的面部看起來好像是凸起的。
事實上我們又被騙了。
這就是我會說大家對現(xiàn)實的看法只不過是最好的猜測的原因。讓我們再看一個視頻:
顯然,視頻中的女主角在說“bar,bar,bar?!爆F(xiàn)在我們來看第二個視頻:
在這里,我們能很清楚的聽到她說“far,far,far?!钡鎸嵡闆r是,她在兩個視頻中說的都是“bar”,而不是“far”。我們聽到她說“far”,是因為視覺系統(tǒng)的暗示。
聽起來是不是有些迷惑?那么我們換種方式來看。這次音軌中出現(xiàn)的詞還是“bar”,但我們會采用分屏顯示,一邊的視頻會顯示“far”的口型,另一邊則為“bar”。視頻播放時請在兩個片段間轉動目光,體會那種聽覺變化的過程。
在我看來,我們很難體驗到所謂的麥格克效應(即人類的聽覺會過多的受到視覺的影響,從而產(chǎn)生誤聽的現(xiàn)象),也很難相信你體驗到的現(xiàn)實只是一種推斷,更別說是所謂現(xiàn)實世界的文字反映了。當你聽到“far”時,傅立葉變換(Fourier Transform,一種分析信號的方法)不會給你傳達相關聲音信息,“far”這個詞根本沒有沖擊到你的耳膜,但你還是覺得自己聽到了。
對 VR 來說,這一點非常重要:無論來源是什么,我們體驗到的現(xiàn)實都是基于推斷輸入的,在這里我們的思維做了最后決定。因此,如果 VR 能提供正確的推理輸入,那么我們就能體驗到任何想體驗的感覺,而這種體驗會變的極其逼真。
我第一次想到這一概念是我準備體驗虛擬跌落測試時。當時,我就感覺自己的膝蓋僵住了,一種無形的力量在推著我后腿。我的意識告訴我這都是假的,但卻忍不住感覺自己要掉下去了。如果把這個原理運用的 VR 中,絕對潛力無限。
我認為一個最能引起大家共鳴的是一個虛擬的工作空間,在這里我們擁有全套的虛擬屏幕和全息畫面,工作空間的風格還能隨時切換。同時,其他人還能隨時進入工作空間,而我也可以去他們的工作空間串門。這樣,我的生產(chǎn)力肯定會大幅提高,而工作也會變的相當有趣,那種感覺就像第一次用上 PC。
事實上,這里我提到 PC 是為了進行直接類比。40 多年前 PC 的誕生是人本計算領域的首次重大飛躍。我相信 VR 會引領第二次飛躍。未來,我們與數(shù)字世界的交互不再通過平面屏幕了,只要我們需要,可以隨著住在數(shù)字空間中。
想實現(xiàn)這一目標我們得做些什么?
上面就是我對 VR 的期待,不過想實現(xiàn)這一目標我們需要大量技術革新。
由于 VR 要驅(qū)動我們的感知系統(tǒng),因此我們要從感官開始,包括視覺、聽覺、觸覺、嗅覺和平衡感。在我看來,在短期內(nèi)后三種感覺 VR 還“控制”不了,但視覺、聽覺和觸覺絕對沒問題。
在視覺上,我們需要讓 VR 的視場與我們眼睛的視場相匹配,同時提升分辨率、清晰度和動態(tài)范圍,此外景深也要控制好。
在聽覺上我們則需要合適的空間化設計(感覺中的聲音來源),完整的空間傳播(聲音如何在虛擬空間運動)和綜合能力。
觸覺的實現(xiàn)還是相當有挑戰(zhàn)性的。手是最好的觸覺載體,也是我們與這個世界交流的主要方式。我們現(xiàn)在能做的只是借助一些震動和阻力來模擬觸覺體驗。不過未來某一天,人類可能會帶上某種手套或外骨骼,直接與世界接觸。
除了把虛擬信息注入感知系統(tǒng),VR 還需要機器感知,這種能力讓它能感知、重構并理解真實世界。有了它我們戴著頭盔才能安全移動,因為家里的家具等會自動進入虛擬世界。當然,要能把人也帶入虛擬世界就更好了,這種面對面交流的新型場景讓我們能在世界的任何角落與遠方的朋友相互交流。
我相信,要想讓 VR 更加普及,這一功能的引入相當重要,因為人才是這世界最有趣的事物。不過,我們太熟悉人這個物種了,因此虛擬人類模擬的稍微有點瑕疵我們都能看出來。
最后我想說,VR 是我們開發(fā)的最厲害的全面感知技術,因此關鍵是揭開人類感知的謎題。簡單來說,VR 的關鍵不是各種技術,而是讓這些技術能與人類感知系統(tǒng)協(xié)調(diào)運轉,這樣才能有真實的體驗。
通盤考慮,VR 需要提升的地方非常多,因此也留下了巨大的研究空間,它不但覆蓋了人類的感知,還事關感應和重構等領域。想要對這些空間進行探索,我們需要世界級的研究人員。同時,多部門合作也相當重要,VR 可是個綜合性的工作。
就拿剛剛我提到的虛擬工作空間來說,在這里你必須有能靈巧的活動“雙手”,同時現(xiàn)有頭戴設備主要專注的是 2 米外的事物,如果縮短到 1 米,可能就會出現(xiàn)虛焦和佩戴舒適度問題,但 1 米才是工作時最合適的距離。
簡單來說,如果我們無法解決這個問題,在虛擬環(huán)境中工作就是個偽命題。同樣的,聲音的空間化也很重要,如果它的來源方向出了問題,你在 VR 世界中也會“跳戲”。我們想實現(xiàn)的事情還很多,比如更高的屏幕分辨率,在虛擬世界重構家中的一切甚至虛擬的人,而這都是我們沒能解決的問題,因此研究人員在各個領域都有很多工作要做。
下面我們來共同認識 VR 面臨的 3 大重要挑戰(zhàn),就從屏幕說起吧。
VR 顯示之對焦眼下,VR 頭戴設備的屏幕系統(tǒng)只不過是屏幕和放大鏡的結合體。當你的目光穿過這些玻璃片,看到的只是單一焦距圖像。
但問題是,我們應該把焦對在哪呢?
上圖右邊我們將焦點放在了無限遠,也就是窗外,因此得到的圖像更接近真實,與左圖非常類似。
在第二張圖中,右邊變化了焦點,焦點成了最近的植物,于是畫面就變成了模糊一片。在這里,設備依然對焦在遠處,但你的眼睛卻對焦在了最近的植物上。
因此,我們需要找到更好的方法來處理對焦的問題。
今天,我沒時間來清楚的解釋原理了,但至少我能大致講解幾種過去幾十年里探究出的潛在解決方案。
現(xiàn)在請你把自己帶入一個簡單的 3D 游戲場景。
從眼科的角度來看,整個游戲畫面覆蓋的屈光度為 0-4,為了讓畫面變清晰,如今的 VR 頭戴設備屈光度通常為 0.5。顯然,在這樣的情況下,距離較近的物體會變模糊。
有人認為,解決這一問題的最佳方法是增加新的焦平面、采取同時顯示的方法或快速連續(xù)的顯示。
感知科學家認為,在屈光度只有 4 的情況下,你根本無法創(chuàng)造足夠的焦平面讓所有東西都完美聚焦。
不過這還好,我們可以逐漸適應這些焦平面。
理光的研究人員最近就做了嘗試,如果你選對了自適應光學儀器,就可以移除附近的焦平面,不過焦平面之間的物體會變得模糊。對這項研究進行一段時間的思考后,Oculus 的研究人員認為與其增加更多的焦平面,不如讓每個焦平面能力更強。因此他們拿掉了一些焦平面并搞彎了剩下的。
因此如果我們能用上更復雜的自適應光學儀器,某個焦平面或某幾個焦平面就能完整覆蓋場景中的物體。
現(xiàn)在我們先來看個模擬。
這張圖中,初看遠景中的物體都對上焦了,但前景卻是虛的。這時我們可以前后景來回看,你就會發(fā)現(xiàn)前景也慢慢的對上焦了。
因此這一想法還是有自己優(yōu)點的。
當然,在模擬中成功的幾率會高一些,因此我們直接做了一臺測試機。
上圖是相機搭配空間燈光調(diào)變器記錄下來的測試機顯示圖片。當相機放進測試機時,圖像的反差會變小。
我們發(fā)現(xiàn),首先對上焦的是較遠的物體,隨后近處的物體也能順利對焦。
當然,這一過程也可以反過來,因此即使沒有眼部追蹤我們也能順利完成對焦。
上圖則是現(xiàn)有定焦屏幕(左)與自適應對焦屏幕(右)的對比,右邊的新技術確實效果顯著。
瞳孔的問題我想說的第二個重大挑戰(zhàn)是眼部追蹤,這是 VR 行業(yè)的一項關鍵技術,同時也是許多計算光學技術的基礎。
現(xiàn)有的眼部追蹤技術主要基于追蹤瞳孔和角膜上的閃光。
視頻展示了瞳孔追蹤是如何工作的,但瞳孔的大小和形狀都會發(fā)生變化。
角膜上的閃光可以彌補瞳孔追蹤的不足,但它也會帶來一些問題,比如我們?nèi)绾螌⒑线m的照明系統(tǒng)和攝像頭放進本已經(jīng)相當龐大的頭戴設備中呢?同時,人的臉型各個不同,我們怎么保證追蹤結果 100% 準確呢?
此外,眼睛也不是什么標準化模具“生產(chǎn)”出來的器官。
真正的問題在于,現(xiàn)在的眼部追蹤技術會根據(jù)瞳孔的位置和角膜上閃爍的光來推斷光子在視網(wǎng)膜上的位置。事實上,直接追蹤視網(wǎng)膜的變化才是最佳解決方案,但這需要一套全新的眼部追蹤技術。
把“真人”送進虛擬空間第三大挑戰(zhàn)是虛擬人物,它是真人在虛擬世界的替身。剛剛我也說了,這是人們廣泛接受 VR 的最重要原因。
想要把“真人”送進虛擬空間,我們至少需要 4 種不同的追蹤技術,而這些技術現(xiàn)在都不夠成熟。第一種技術是眼部追蹤,第二種則是手部追蹤。
下面的視頻展示的是完美的手部追蹤:
由于人的手自由度高達 25 且存在許多自遮擋問題,因此現(xiàn)在的手部追蹤系統(tǒng)相當復雜。
臉部是人體表現(xiàn)力最強的部分,它的變化可以非常細微,因此追蹤起來也最困難,而面部追蹤是第 3 種追蹤技術。
上面的視頻展示了實時面部追蹤的最新技術,雖然有了不少突破,但離成熟還很遠。
第 4 種追蹤技術是骨骼人體追蹤,雖然還有許多工作要做,但它已經(jīng)可以投入實戰(zhàn)了,下一步的主要工作是對相機系統(tǒng)進行改造,讓它用起來更方便。
虛擬人物后面的技術給我們帶來了不少有趣的問題,但其中最令人感興趣的是“到底什么才是讓虛擬人物令人信服的關鍵因素?!?
這一問題的答案恐怕還要到認知科學和社交心理學中尋找,而起初我們必須搜尋大量的數(shù)據(jù),下面的視頻就展示了 Yaser Sheikh 的一部分研究成果。
雖然看起來很酷,但這段視頻中 1 秒的畫面就需要花 2 小時來渲染,因此它離實際應用還有很長時間。
VR 的未來以上這些只是 VR 面臨的一部分挑戰(zhàn)而已,想把它們一個個解決掉恐怕得花很長時間。VR 給我們準備了巨大的探索空間,我們需要將更多的精力投入其中。想要窮盡其中奧秘,恐怕還得經(jīng)歷數(shù)十年的不斷創(chuàng)新。
從純粹意義上來講,VR 也是絕對的大挑戰(zhàn)。顯然,它非常困難,需要多個領域的合作。不過,這并不能完全概括它。從宏觀來看,VR 是 70 多年計算機革命和一個世紀以來信息技術發(fā)展的最高峰。未來,我們肯定能擁有與數(shù)字世界交互的全新界面,而類似全帶寬和生物處理技術會陸續(xù)加入進來。
VR 潛力巨大,它能拓寬人類體驗的廣度和深度。如果它能最終成功,絕對會成為我們這個時代最重要的技術。
【版權聲明】:本站內(nèi)容來自于與互聯(lián)網(wǎng)(注明原創(chuàng)稿件除外),如文章或圖像侵犯到您的權益,請及時告知,我們第一時間刪除處理!謝謝!