眼動追蹤交互:30年回顧與展望
在這些年來,眼動追蹤技術(shù)經(jīng)歷了怎樣的發(fā)展歷史?這篇文章里,作者總結(jié)了眼動追蹤技術(shù)的歷史,并對眼動追蹤交互應(yīng)用的分類、眼動追蹤性能等方面做了總結(jié),一起來看看吧,或許有助于你了解XR場景下的眼動追蹤應(yīng)用。
本文從以下兩篇文獻(xiàn)出發(fā),系統(tǒng)總結(jié)了基于注視的交互(Gaze-based Interaction)30 年來的進(jìn)展與現(xiàn)狀,并結(jié)合眼動與注意的生理心理機(jī)制,總結(jié)眼動追蹤技術(shù)為 XR 場景下的人機(jī)交互帶來的創(chuàng)新與挑戰(zhàn)。
- Duchowski, A. T. (2018).Gaze-based interaction: A 30 year retrospective.Computers & Graphics,73, 59-69.
- Adhanom, I. B., MacNeilage, P., & Folmer, E. (2023).Eye Tracking in virtual reality: A broad review of applications and challenges.Virtual Reality, 1-25.
一、眼動追蹤技術(shù)的歷史
回顧過去 30 年,眼動追蹤技術(shù)的發(fā)展歷史大致可以分成三個階段:
2000 年前,早在 19 世紀(jì)開始的人眼注視點研究,主要應(yīng)用于生理學(xué)、心理學(xué)及眼科學(xué)相關(guān)學(xué)術(shù)研究領(lǐng)域,用于理解人類的眼睛是如何工作的,以及人是如何在有意識和無意識的情況下處理信息的(Javal,1990)。
2000~2020,這一階段隨著 IT 行業(yè)等興起,互聯(lián)網(wǎng)經(jīng)濟(jì)幾乎等價于“注意力經(jīng)濟(jì)”,也被稱為“眼球經(jīng)濟(jì)”,伴隨著眼動追蹤技術(shù)的小型化、輕量化,越來越多地應(yīng)用于網(wǎng)頁用戶研究、廣告營銷等領(lǐng)域。
2020 后,眼動追蹤技術(shù)等應(yīng)用領(lǐng)域更加廣泛,特別是近眼顯示形態(tài)的 XR 設(shè)備上開始集成了眼動追蹤技術(shù),最具代表性的有來自微軟的 AR 眼鏡 HoloLens 2 和廣泛應(yīng)用于科研領(lǐng)域的 HTC VIVE Pro Eye,均發(fā)布于 2019 年。
https://kenpfeuffer.com/eye-hand-symbiosis-what-guide/
關(guān)于眼動追蹤的實現(xiàn)技術(shù)有很多,包括但不限于:
- 眼電圖(EOG)
- 鞏膜電磁追蹤線圈
- 基于視頻瞳孔監(jiān)控
- 紅外角膜反射
XR 近眼顯示設(shè)備基本上采用的都是紅外角膜反射技術(shù),簡單來說就是利用角膜與虹膜對近紅外光線反射的差異,通過近紅外補光燈和近紅外攝像頭捕捉并計算眼動方向(閆國利, 白學(xué)軍, 2018)。
眼鏡式眼動追蹤示意圖
二、眼動的生理特征
人眼球運動主要由六塊肌肉負(fù)責(zé)控制,這六塊肌肉相互作用,通過收縮和放松實現(xiàn)眼球的上下、左右和判斷角度的調(diào)整,從而令視線可以隨意轉(zhuǎn)動,實現(xiàn)目光的隨意轉(zhuǎn)換:
- 上直?。菏寡矍蛳蛏线\動。
- 下直?。菏寡矍蛳蛳逻\動。
- 內(nèi)直?。菏寡矍蛳虮亲臃较蜣D(zhuǎn)動。
- 外直?。菏寡矍蛳蚨浞较蜣D(zhuǎn)動。
- 上斜?。菏寡矍蛏蟽?nèi)旋運動。
- 下斜?。菏寡矍蛳峦庑\動。
Eye movement
以下圖所示的 XYZ 坐標(biāo)軸為例,眼球左右旋轉(zhuǎn)范圍各為 45°~55°;向上為47°~55°,向下為28°~35°,隨年齡的增長旋轉(zhuǎn)范圍會有所縮減(Lee 等,2019)。
在人機(jī)交互中常用的兩種眼動行為指標(biāo):注視(Fixation)和掃視(Saccade),前者是指眼睛停留在固定區(qū)域一段時間,通常為200-300毫秒,但注視并非眼睛完全固定不動,在這一過程中可能伴隨輕微的眼動(震顫、漂移和微掃視);后者則是指眼睛在不同注視點之間跳轉(zhuǎn)的過程,跳轉(zhuǎn)幅度在1°~45°之間,一般情況下如果跳轉(zhuǎn)角度超過 30° 通常會伴隨頭部轉(zhuǎn)動以提高效率。
三、眼動追蹤交互應(yīng)用的分類
總結(jié)過往眼動追蹤在人機(jī)交互中的應(yīng)用,可以分為以下幾種類型:
1. 主動型
眼動作為一種輸入(Input)方式,主動與界面進(jìn)行交互,包括選中、確認(rèn)等操作,例如下面這個使用眼動進(jìn)行撥號/解鎖的交互。
Apple Vision Pro 眼手協(xié)同也是一種基于眼動追蹤的主動交互方式,具體可以參考上一篇:《蘋果 visionOS 交互的近 10 年研究總結(jié)》。
除了這種界面輸入交互之外,眼動輸入也可以用于游戲控制,如 PSVR 2 的游戲中用于武器切換:
psvr2
由于主動型交互需要通過眼動準(zhǔn)確傳達(dá)用戶的控制意圖,因此對眼動追蹤的空間準(zhǔn)確性和追蹤時延都有較高要求。
2. 被動型
被動型主要是指通過實時跟蹤眼睛注視位置,來優(yōu)化畫面渲染的技術(shù)。比如注視點渲染,只在人眼視覺最敏銳的中央凹(Foveal)區(qū)域呈現(xiàn)最高分辨率,隨著遠(yuǎn)離中央凹的距離增加視敏度也會急劇下降,相應(yīng)地只渲染較低分辨率的畫面,從而大大降低頭戴顯示設(shè)備的畫面渲染負(fù)擔(dān)。
Fovated Rendering
另外一種是基于注視點實現(xiàn)自動變焦功能,包括 Apple Vision Pro 在內(nèi),目前所有已知的頭顯的畫面都是固定焦距(通常是 1~1.5m),屏幕光線沒有深度信息,輻輳和調(diào)焦的位置發(fā)生了分離,從而產(chǎn)生視覺輻輳調(diào)節(jié)沖突(VAC 問題),引發(fā)視覺疲勞、暈眩等問題。而注視點變焦可以根據(jù)用戶視線關(guān)注的內(nèi)容動態(tài)調(diào)整光學(xué)焦距,從而實現(xiàn)更加舒適自然的視覺體驗。
Meta Varifocal Prototype
被動型應(yīng)用可以解決 XR 顯示方面諸多問題,但是對眼動追蹤的時間分辨率有極高的要求,這里的時間分辨率不只是眼動采樣率,還要加上從追蹤到計算再到渲染整個鏈路的時間。根據(jù)人眼對畫面動態(tài)變化的感知能力,注視點渲染整體延遲至少要做到 30ms 以內(nèi)(甚至短)才行。
3. 表達(dá)型 & IV. 診斷型
這兩類就比較簡單了,表達(dá)型主要應(yīng)用于驅(qū)動數(shù)字人(Avatar),我們常說的恐怖谷效應(yīng)(Uncanny Valley)其實很大程度上就是因為實體或建模的數(shù)字人眼神空洞缺少生氣,通過追蹤用戶真實的眼動行為并映射到虛擬形象上,可以達(dá)到更加真實自然的效果,也可以在虛擬形象社交場景中提供更加豐富的情緒反饋。
Animoji
另外,Apple Vision Pro 的反向透視(Eyesight)功能也是一種基于眼動追蹤的表達(dá)型應(yīng)用,它通過內(nèi)部攝像頭追蹤用戶實時眼動再重新建模并渲染在外屏上,從而減輕佩戴者與旁邊人之間的隔閡。
AVP Eyesight
表達(dá)型和診斷型應(yīng)用對眼動追蹤的準(zhǔn)確性和實時性遠(yuǎn)沒有前兩種交互的要求那么高,甚至可以根據(jù)實際應(yīng)用場景極大簡化對眼動數(shù)據(jù)的依賴(當(dāng)然這只是相對而言)。
四、眼動追蹤性能要求
以上所總結(jié)的交互場景很多都還處于實驗或原型階段,其主要原因是當(dāng)前的眼動追蹤技術(shù)性能無法滿足人眼需求(特別是對于集成在一體機(jī)頭戴顯示設(shè)備上的眼動追蹤技術(shù)),最后我們來總結(jié)一下 XR 場景下對眼動追蹤的性能要求。
我們需要從空間分辨率(Spatial Resolution)和時間分辨率(Temporal Resolution)兩個維度拆解不同應(yīng)用場景對眼動追蹤性能的需求,其中空間分辨率包括準(zhǔn)確性(Accuracy)和精確性(Precision);而時間分辨率則包括采樣率(Sampling Rate)和整體延遲(End-to- End Latency)。
當(dāng)前一些頭戴顯示設(shè)備的眼動追蹤性能指標(biāo)(未列入的Meta Quest Pro參數(shù)可能和HTC Vive Pro Eye接近):
五、總結(jié)
XR 場景中基于眼動追蹤的交互方式,可以提供更加自然、舒適、順暢、沉浸的用戶體驗,但同時也對眼動追蹤技術(shù)的準(zhǔn)確性和實時性等性能提出更高的要求。Apple Vision Pro 作為一款成熟度相當(dāng)高的消費級頭戴設(shè)備,可能已經(jīng)把硬件技術(shù)和交互設(shè)計拉到極致來保障基于眼動的用戶體驗,希望可以由此帶動整個 XR 行業(yè)向前邁進(jìn)!
?? 完整參考文獻(xiàn)點擊原文查看。
https://hackvision.pro/post/gaze-based-interaction-30-years.html
本文由 @V2XR 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!