從Vision Pro一窺眼動追蹤交互的巨大潛力
在蘋果MR頭顯產(chǎn)品Apple Vision Pro出現(xiàn)之后,不少人都對這款產(chǎn)品進行了分析,在本篇文章里,作者就嘗試分析拆解了Vision Pro的眼動追蹤技術(shù)的應(yīng)用與交互設(shè)計,一起來看看吧,或許可以幫助你了解更多XR相關(guān)的交互方式。
Vision Pro發(fā)布后,有人評價這款產(chǎn)品是現(xiàn)有VR/AR、顯示、光學(xué)、人機交互技術(shù)的集大成者。雖然里面罕見新技術(shù)以及新場景,但它把原有的XR體驗提升至了一個新的高度。
以交互為例,以往手柄是頭顯的標(biāo)配,有部分廠商還進行了手勢識別的探索,而Vision Pro帶來的解決方案是“眼動追蹤+手勢+語音”。蘋果把常見的眼動追蹤技術(shù)融入進了核心交互中,并為我們呈現(xiàn)了最為自然的體驗。
一、以眼動追蹤為核心,蘋果定義標(biāo)桿級XR交互方式
眼動追蹤指的是測量注視點或眼睛相對頭部的運動過程,它并非前沿技術(shù),其最早的研究甚至可以追溯到19世紀(jì)。
目前眼動追蹤技術(shù)包含了眼電圖EOG法、鞏膜搜索線圈法、眼睛影響捕獲、通過視網(wǎng)膜影像變化、圖像計算進行注視點追蹤、視網(wǎng)膜角膜反射法等技術(shù)路線,陀螺君了解到,瞳孔角膜反射法是目前的主流,也是一眾具有量產(chǎn)性的方案中最為可靠的一種。
此前VR陀螺文章《新一代XR頭顯標(biāo)配,詳解眼動追蹤技術(shù)的價值和挑戰(zhàn)》對瞳孔角膜反射法已有相關(guān)介紹,簡單來說,該方案由眼動攝像機、光源和算法共同完成。光源發(fā)射紅外光在眼角膜反射形成閃爍點,眼動攝像機捕捉眼睛的高分辨率圖像,再經(jīng)由算法解析,實時定位閃爍點與瞳孔的位置,最后借助模型估算出用戶的視線方向和落點。
眼動追蹤技術(shù)多應(yīng)用于醫(yī)療健康、廣告、社科等領(lǐng)域,近年來,伴隨著VR/AR的發(fā)展,它在里面開始發(fā)揮越來越重要的作用。如2015年,F(xiàn)OVE 0頭顯在Kickstarter展開眾籌,其核心賣點便是配備了眼動追蹤技術(shù)。FOVE指出,其眼動追蹤技術(shù)可用于控制游戲角色移動、注視點渲染、醫(yī)療健康等。
FOVE 0,圖源:網(wǎng)絡(luò)
近年發(fā)布的PICO 4 Pro、Quest Pro、PS VR2等產(chǎn)品同樣配備了眼動追蹤技術(shù)。以Quest Pro為例,在眼動追蹤的加持下,Avatar可獲得更為豐富的眼神細(xì)節(jié)信息,此外,結(jié)合注視點渲染(ETFR)技術(shù),最高可節(jié)約近52%的GPU性能。而PICO 4 Pro則把眼動追蹤與自動瞳距調(diào)節(jié)功能結(jié)合在了一起。有關(guān)眼動追蹤的更多應(yīng)用場景,可查看VR陀螺過往文章《【盤點】眼動追蹤在XR中的八大應(yīng)用,注視點渲染僅是“前菜”》
除前面提到的這些功能外,基于眼動追蹤的交互也是頗具潛力的應(yīng)用場景之一。此前Meta Reality Labs的一份關(guān)于“手柄、頭動以及眼動交互”的一份研究指出,以90Hz運行的平均精度誤差低于1°的眼動追蹤系統(tǒng)(在無光標(biāo)或其他反饋的條件下),它在易用性、采用率和疲勞度相較于頭部輸入(Head input )分別提高了66.4%、89.8%和116.1%,而相較于手柄輸入則分別降低了4.2%、8.9% 和 116.1%,不過它的失誤率是三者當(dāng)中最高的。論文總結(jié)道,隨著交互設(shè)計的改進,眼動追蹤對于下一代AR/VR設(shè)備而言具有巨大的潛力。
實驗中出現(xiàn)的三種交互方式,圖源:Meta
微軟于2019年發(fā)布的HoloLens 2同樣支持眼動追蹤功能,其產(chǎn)品開發(fā)者文檔中提到了眼動追蹤交互的幾大優(yōu)勢:
- 使用起來毫不費力,幾乎沒有其他多余的身體動作參與進來;
- 交互具有私密性;
- 眼部肌肉是人體反應(yīng)速度最快的肌肉,可以實現(xiàn)快速指向。簡單做個類比,人眼單次掃視的時間為20-40毫秒,而使用鼠標(biāo)在玩槍戰(zhàn)游戲時的反應(yīng)時間約為250毫秒。
- 可以分析用戶正在關(guān)注的對象,從而開發(fā)出更為智能的用戶界面。
陀螺君了解到,近年來XR眼動追蹤模組的價格已經(jīng)進入了一個快速下探期。早期眼動追蹤在XR產(chǎn)品中滲透率低,整體價格比較高,如2019年亮相的Pico G2 4K眼球追蹤一體機,眼動追蹤上機成本約兩千元。如今眼動追蹤模組的BOM+License成本已經(jīng)下探到了兩百多。
一方面是Vision Pro的激勵作用,另一方面是價格的下探,相信我們很快就能看到更多配備眼動追蹤技術(shù)的XR新品推出。
二、高規(guī)格硬件+算法積累,Vision Pro帶來高精度眼動體驗
在Vision Pro發(fā)布前,其預(yù)測消息已經(jīng)滿天飛。以交互為例,有人認(rèn)為是肌電手環(huán)+手勢,也有人認(rèn)為是Siri+手勢等。而Vision Pro特別引入了眼動追蹤,會后在很多人看來這有一種意料之內(nèi)而又大吃一驚的感覺。
一方面,用眼動做交互并不復(fù)雜,一位XR從業(yè)者告訴陀螺君,早些年他曾經(jīng)做過一個類似的解決方案,即通過眼動進行選擇,然后用頭動(Head Tracking)進行數(shù)據(jù)修正再用按鍵點擊確認(rèn),他把這種交互稱之為多階交互法。
就在Vision Pro發(fā)布不久后,一個名為ThrillSeeker的YouTuber只花費了兩天時間,便在Quest Pro的基礎(chǔ)之上復(fù)刻了一套“手勢+眼動”的交互演示demo。他指出,雖然Quest Pro的眼動追蹤硬件精度稍差,但運行起來一切正常。
圖源:Youtube
而另外一方面,讓很多人“大吃一驚”的地方在于,Vision Pro完全舍棄了如今最為成熟的手柄方案,并激進地選擇了尚未成熟的眼動追蹤作為交互的核心。
以Quest Pro為例,在很多用戶看來,它的眼動追蹤只是一個“感知不強、徒增功耗”的小功能,并且Meta對它也不受待見。它在系統(tǒng)中處于默認(rèn)關(guān)閉的狀態(tài),用戶需要在設(shè)置欄中自行啟用。此外,它的應(yīng)用場景嚴(yán)重缺失,能讓用戶明顯感知的唯二功能不過是Avatar照鏡子以及眼動錄入與校準(zhǔn)的小動畫。
第三方應(yīng)用程序方面,雖說也有主打眼動追蹤的應(yīng)用,但它們以實驗探索性的demo居多。如SideQuest有一款眼動追蹤打字demo《Eye Tracking Keyboard》,陀螺君體驗發(fā)現(xiàn),它在操作上比較科幻,但是經(jīng)常會出現(xiàn)視線抖動以及對不準(zhǔn)的情況,暫未清楚是硬件問題還是軟件問題。
圖源:VR陀螺
相反,Vision Pro的上手體驗媒體均對它的眼動追蹤交互給予了很高的評價:用戶的眼睛就像是PC端的鼠標(biāo),眼睛注視圖標(biāo)然后雙指捏合,即可打開新的應(yīng)用;眼睛在菜單欄停留一段時間會自動彈出二級菜單…….很多人表示這簡直就是魔法。
從這些評價中不難發(fā)現(xiàn),Vision Pro的眼動追蹤交互技術(shù)已經(jīng)具有極高可用性以及易用性,而這是Vision Pro在硬件、算法、UI三方面同時發(fā)力的結(jié)果。
眼動儀器常見的指標(biāo)主要有兩種,分別是準(zhǔn)確度(Accuracy)和精確度(Precision),前者反映的是凝視位置與真實凝視位置之間的差異,后者則反映的是持續(xù)記錄同一個注視點時的離散程度。這些數(shù)據(jù)能直觀反映眼神標(biāo)定究竟“準(zhǔn)不準(zhǔn)”。
前面提到的FOVE 0,其官方宣稱眼動追蹤準(zhǔn)確度可以達(dá)到1°、HoloLens 2的準(zhǔn)確度在1.5°左右,市面上某款在售XR眼動追蹤模組宣稱其準(zhǔn)確度可以做到<0.5°。陀螺君測算,在正常使用電腦的情況下,大圖標(biāo)的肉眼視角約為1.5°,單一文字的視角約為0.38°(僅供參考,不一定準(zhǔn)確)。
目前Vision Pro并未公布其眼動追蹤模組的具體規(guī)格,不過據(jù)部分Vision Pro體驗用戶反饋稱,Vision Pro的眼動交互可以實現(xiàn)文本選擇復(fù)制粘貼等操作,從這方面來看它的準(zhǔn)確度應(yīng)該妥妥屬于XR第一梯隊。
圖源:微軟
此外,Vision Pro的眼動追蹤硬件也十分豪華,它左右眼分別配備了兩顆紅外攝像頭,相比之下Quest Pro以及PS VR2等產(chǎn)品僅配備了左右眼各一顆攝像頭。兩顆攝像頭加入,在保障追蹤精度的同時,還能用于測算雙眼瞳深,進而完善預(yù)畸變算法以實現(xiàn)更好的畫面顯示效果。
圖源:蘋果
微軟HoloLens 2軟件開發(fā)指南中曾提到,人眼視線的運動是不規(guī)則且跳躍的,并且速度很快??赡茉谟脩敉瓿牲c擊動作之前,視線早已經(jīng)飄走,因此將快速眼睛凝視信號與慢速的控制輸入結(jié)合起來需要格外小心。
在算法方面,蘋果已經(jīng)有很多年的技術(shù)儲備。早在2017年,蘋果收購德國眼動追蹤技術(shù)開發(fā)商SensoMotoric Instruments(SMI),這是一家專注于該細(xì)分領(lǐng)域的頭部企業(yè),已有30余年的發(fā)展歷史。2017年,蘋果首次將眼動追蹤功能應(yīng)用于其Face ID中,以提升解鎖的安全性。而近些年來,蘋果陸續(xù)有眼動追蹤相關(guān)專利申請流出,這為Vision Pro的交互奠定了良好的基礎(chǔ)。
蘋果前員工Sterling Crispin爆料稱,蘋果圍繞Vision Pro有一個專門研究神經(jīng)技術(shù)的開發(fā)小組,而他所做的工作之一是通過AI預(yù)判用戶的操作行為。他提到,“你的瞳孔會在你點擊某物之前作出反應(yīng),部分原因在于用戶對接下來發(fā)生的事有所期望。因此,可以通過觀察用戶的眼睛行為并配合實時反饋的UI來增強用戶大腦的預(yù)測性瞳孔反應(yīng),從而創(chuàng)建生物反饋。”
AI算法的加入,也是Vision Pro的眼動交互備受好評的重要原因之一。
圖源:蘋果
三、降低手勢門檻,提升UI審美,“隱性”層面提升交互幸福感
除硬件以及算法外,人機交互設(shè)計也是蘋果的一貫強項。業(yè)內(nèi)人士告訴陀螺君,“基于蘋果這套眼動追蹤硬件,開發(fā)者其實也能實現(xiàn)高精度的眼球操作,里面的算法其實并不難,真正難的是蘋果所開發(fā)的這一整套交互邏輯。”
前面提到,Vision Pro配備的是以“眼動+手勢+語音”的多模態(tài)交互解決方案,這也是從產(chǎn)品底層出發(fā)推導(dǎo)的結(jié)果。
目前市面上已有不少基于眼動追蹤的單一交互解決方案,如掃視選擇凝視確認(rèn)(如上面的鍵盤demo)、眨眼確認(rèn)、雙重凝視(快速掃視兩次進行確認(rèn))等,不過這些方案總體而言都不符合自然的使用直覺,所以Vision Pro在此基礎(chǔ)上補充了手勢。
雙重凝視,圖源:ISMAR
而對于手勢而言,Vision Pro也進行了一系列優(yōu)化。此前Quest 2、HoloLens等產(chǎn)品飽受詬病的地方在于其視覺盲區(qū)很大,使得用戶使用裸手交互時需要把手抬起來,使用過程中非常容易疲勞。而Vision Pro則配備了四顆用于手勢識別的攝像頭,可以檢測腰部以下的手勢,用戶甚至可以把手放在膝蓋上進行操作。也就是說,在這種情況下,蘋果保證了“眼動+手勢”不會成為其體驗的減分項。
在之前,UI設(shè)計并非頭顯“剛性”的需求,因為它并不影響功能的實現(xiàn),不過,蘋果在這方面也花費了很大的功夫,以保證體驗的飽滿。WWDC 2023期間,蘋果圍繞Vision Pro的軟件開發(fā)帶來了一系列主題分享,其中《空間輸入設(shè)計》中介紹了有助于提升眼動追蹤體驗的設(shè)計規(guī)范:
- 人眼會自然引導(dǎo)我們注意物體中間的形狀,基于此,可以使用圓形、圓角矩形、藥丸等形狀;
- 避免使用帶有鋒利邊緣的形狀,因為后者會引導(dǎo)眼睛聚焦在外面;
- 保持形狀平坦,粗糙輪廓會讓我們引起對邊緣的注意;
- 使用大量填充使文本和字形保持居中;
- 實現(xiàn)眼睛交互的元素最低保持60pt × 60pt;
- 不同交互目標(biāo)之間應(yīng)該保持一定間距。
來源:蘋果
為了讓眼動追蹤交互能夠正常響應(yīng),視覺的反饋是必須的。蘋果在這方面同樣提供了底層級的支持。比如用戶視線掃過某個APP圖標(biāo)時,它會出現(xiàn)相應(yīng)的3D效果,當(dāng)用戶查看菜單欄時,也會有相應(yīng)的光流效果出現(xiàn)。
陀螺君了解到,在軟件開發(fā)時,開發(fā)者只需要設(shè)計圖標(biāo),并考慮好內(nèi)容之間的分層結(jié)構(gòu)關(guān)系,而光影、眼神反饋等效果則交由visionOS系統(tǒng)后臺實時處理。這既降低了開發(fā)門檻,同時也保障了不同軟件之間的體驗一致性。
視線掃過時的細(xì)膩動畫效果,圖源:蘋果
最后再來談一談Vision Pro眼動追蹤所帶來的隱私問題,這也是產(chǎn)品發(fā)布會上所強調(diào)的重點之一。
眼動是一項非常隱私的數(shù)據(jù),研究表明,一個人的目光數(shù)據(jù)可能暗含用戶的性別、年齡、種族、體重、性格特征、情緒狀態(tài)、技能等各種敏感信息。
實際上,廣告心理學(xué)上也有一項名為視向心理測量的研究,即通過使用眼動儀來分析消費者注視廣告的時間、焦點、眼跳等來洞察其心理偏好。如果這些數(shù)據(jù)不加以保護,未來可能會出現(xiàn)更多更為準(zhǔn)確的“猜你喜歡”廣告推送服務(wù)。(這也是Quest Pro發(fā)布時備受吐槽的一點)
Mike Rockwell透露,Vision Pro的解決方案是把眼動數(shù)據(jù)進行隔離并在后臺進行單獨處理,蘋果稱只有當(dāng)用戶進行雙指捏合操作時才會釋放結(jié)果,這樣就很好規(guī)避了APP和網(wǎng)站獲取隱私問題。
結(jié)語
單從Vision Pro的眼動追蹤的應(yīng)用這一項便不難發(fā)現(xiàn),這是一款細(xì)節(jié)滿滿的產(chǎn)品。以“眼動+手勢+語音”確立產(chǎn)品核心交互范式,通過硬件以及算法讓眼動追蹤交互提升至體驗的及格線,再從人機交互、UI設(shè)計、隱私保護等方面切入使得它的體驗達(dá)到了優(yōu)秀水平。
毫無疑問Vision Pro會成為XR市場的新標(biāo)桿,而它的這套交互設(shè)計或許也會成為各大廠商在未來競相學(xué)習(xí)以及追趕的對象。
參考資料
https://learn.microsoft.com/zh-cn/windows/mixed-reality/design/eye-gaze-interaction
https://developer.apple.com/videos/play/wwdc2023/10073/?time=271
https://www.yankodesign.com/2023/06/12/apple-vision-pro-for-999-an-engineer-built-the-vision-pros-eye-hand-tracking-interface-for-the-meta-quest-pro/
作者:VR陀螺 萬里
來源公眾號:VR陀螺(ID:vrtuoluo),XR行業(yè)垂直媒體,關(guān)注VR/AR的頭部產(chǎn)業(yè)服務(wù)平臺。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @VR陀螺 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!