終極設(shè)計師指南:語音用戶界面(VUI)
一個日益數(shù)字化的世界意味著,我們在設(shè)備上花費的時間可能比在彼此上花費的時間要多。而語音交互是否會成為我們與世界互動的主要方式呢?
“設(shè)置早上7:15的鬧鐘”
——“好的,呼叫Selma Martin 中”
“不是不是!是設(shè)置早上 7:15 的鬧鐘”
——“很抱歉。我不懂您在說什么。”
“哎~”(開始手動設(shè)置鬧鐘)
我們的聲音形形色色,并且復(fù)雜多變。語音命令甚至更難處理——在人與人之間尤其如此,更不用說計算機了。我們構(gòu)思、進行文化交流,以及我們使用俚語和推斷意義的方式……所有這些細微差別都會影響我們語言的理解和表達。
那么,設(shè)計師和開發(fā)如何應(yīng)對這一挑戰(zhàn)呢?怎么才能建立人和AI(人工智能)之間的信任?
這時候語音用戶界面(VUI)就有了用武之地。語音用戶界面(VUI)主要是輔助用戶的視覺、聽覺和觸覺,完成用戶與設(shè)備之間的語音交互。
簡而言之,語音用戶界面(VUI)可以是任何事物,從聽到您的聲音時閃爍的燈光到汽車娛樂控制臺。
請記住,語音用戶界面(VUI)無需可視化界面,它完全可以是聽覺的或觸覺控制的(例如:振動)。語音用戶界面(VUI)主要是輔助用戶的視覺、聽覺和觸覺,完成用戶與設(shè)備之間的語音交互。
雖然VUI種類繁多,但是可共享同一套設(shè)計規(guī)范,這套設(shè)計規(guī)范影響可用性。我們可以一起探討這套規(guī)范,因此作為用戶,可以分析日常的VUI交互;作為設(shè)計師,可以創(chuàng)造更好的體驗。
一、發(fā)現(xiàn)——約束條件、依賴關(guān)系以及用例
我們與世界的的互動方式受到技術(shù)、環(huán)境以及社會限制的極大影響,例如:我們處理信息的速度。
將信息轉(zhuǎn)化為行動的準(zhǔn)確性,用來傳達信息的語言/方言,以及該行動的接收者(不管是我們自己還是其他人)都會影響我們處理信息的數(shù)據(jù)。
在我們深入研究交互設(shè)計之前,首先我們必須要定義語音交互環(huán)境背景的構(gòu)成。
1. 確定設(shè)備類型
設(shè)備類型影響語音交互的方式、原始語音輸入和語音范圍。
移動設(shè)備:
- 蘋果、Pixels、Galaxies
- 連接——蜂窩網(wǎng)絡(luò)、Wi-Fi、設(shè)備配對
- 環(huán)境背景對語音交互有重大影響
- 用戶習(xí)慣于使用語音交互
- 允許通過視覺、聽覺和觸覺反饋進行交互
- 在各種模型中建立標(biāo)準(zhǔn)化的交互方法
可穿戴設(shè)備:
- 特定于用例,通常面向特定用例,如手表、健身帶,或智能鞋
- 連接——蜂窩網(wǎng)絡(luò)、Wi-Fi、設(shè)備配對
- 用戶可能習(xí)慣于使用語音交互,但這種交互在設(shè)備之間是非標(biāo)準(zhǔn)化的
- 一些可穿戴設(shè)備允許用戶通過視覺、聽覺和觸覺反饋進行交互——但有一部分沒有明確的交互,比較被動
- 通常用戶交互和數(shù)據(jù)消費都依賴于連接的設(shè)備
固定連接設(shè)備:
- 臺式機、帶屏幕的設(shè)備、恒溫器、智能家居、音響系統(tǒng)、電視
- 連接——蜂窩網(wǎng)絡(luò)、Wi-Fi、設(shè)備配對
- 用戶習(xí)慣于在相同的位置使用這些設(shè)備并在習(xí)慣的基礎(chǔ)上進行設(shè)置
- 類似設(shè)備類型之間的準(zhǔn)標(biāo)準(zhǔn)化語音交互方式(臺式機 VS 連接集線器,就像Google Home / Amazon Alexa VS 智能恒溫器)
非固定計算設(shè)備(非電話):
- 筆記本、平板電腦、轉(zhuǎn)發(fā)器、汽車信息娛樂系統(tǒng)
- 連接——無線、有線(不常見)、Wi-Fi、設(shè)備配對
- 通常主要輸入方式不是語音
- 環(huán)境對語音交互有重大影響
- 通常在不同的設(shè)備之間有非標(biāo)準(zhǔn)化的語音交互方法
2. 創(chuàng)建用例矩陣
語音交互的三個主要用例是什么?該設(shè)備是否有一個主要用例(如健身追蹤器)?或者是否有組合用例(如智能手機)?
創(chuàng)建一個用例矩陣是非常重要的,它將幫助你確定:
- 為何用戶與設(shè)備交互?
- 交互的主要方式是什么?
- 什么是次要的?
- 什么是好的交互模式?
- 什么是必不可少的?
你可以為每種交互模式創(chuàng)建用例矩陣。當(dāng)應(yīng)用于語音交互時,矩陣將幫助你了解用戶當(dāng)前使用或想要使用語音與產(chǎn)品交互的方式,包括他們將使用的語音助手的位置。
3. 按順序排列交互模式
如果實施用戶研究去驗證用例(抑或是可用性或定性/定量分析),那么通過給交互模式排列次序等級就變得十分有必要了。
如果有人告訴你:“如果我能跟電視交流讓它換頻道,這真的是太酷了!”
那么你真的需要深入了解:他們真的會用么?他們了解這些限制嗎?他們真的知道自己使用這些功能的傾向嗎?
作為設(shè)計師,必須了解用戶勝過他們自己。你必須質(zhì)疑他們交互的方式,因為有替代方案可選。例如:假設(shè)我們正在研究用戶是否會與電視互動。在這種情況下,可以大膽的假設(shè)語音交互只是諸多交互手段之一。
用戶有多種手段可選:遙控器、配對的智能手機、游戲手柄或連接的物聯(lián)網(wǎng)設(shè)備。因此,語音交互不一定是默認(rèn)的交互方式,它只是眾多方式之一。
因此問題就變成了:語音交互變?yōu)橹髁鹘换ナ侄蔚目赡苄杂卸啻??如果不是主要的手段,那會是次要的嗎?或者第三?這將向前推進你的推斷和交互假設(shè)。
4. 技術(shù)限制實例
把我們的語言轉(zhuǎn)化為行動是一項極其困難的技術(shù)挑戰(zhàn)。通過時間、連接和訓(xùn)練,調(diào)優(yōu)的計算引擎可以聽懂我們的話并作出適當(dāng)?shù)膭幼鳌?/p>
不幸的是,我們生活的世界無線連接并沒有想象中的廣泛(如:互聯(lián)網(wǎng)),也沒有無限的時間。我們希望語音交互能與其他習(xí)慣的交互一樣直接:視覺上的和觸覺上的——即便語音引擎需要復(fù)雜的處理和預(yù)測建模。
以下是一些實例流程,展示了我們在演講過程中識別的過程:
正如我們所看到的,許多的模型都需要使用的詞語、音調(diào)、音色來進行不斷的訓(xùn)練。
每種語音識別引擎都有一些技術(shù)限制,在構(gòu)建語音交互體驗時,必須考慮到這些限制。
分析以下分類:
- 連接水平——設(shè)備是否始終連接網(wǎng)絡(luò)?
- 處理速度——用戶是否需要實時處理語音?
- 處理精度——如何權(quán)衡準(zhǔn)確度與處理速度?
- 語音模型——當(dāng)前模型的效率怎么樣?能準(zhǔn)確的處理整句還是簡短的單詞?
- 備選方案——如果無法進行語音識別,備選方案是什么?用戶有其他的交互模式選擇嗎?
- 結(jié)果誤差——處理過程中一個錯誤的命令會不會導(dǎo)致不可逆的結(jié)果?語音識別引擎是否能夠避免這種不可逆的錯誤?
- 環(huán)境測試——語音引擎是否在復(fù)雜環(huán)境下進行過測試?例如:如果我構(gòu)建汽車的信息娛樂系統(tǒng),相比智能恒溫器我會設(shè)想更多的干擾環(huán)境。
5. 非線性
此外,我們還應(yīng)該考慮用戶能夠以非線性的方式與設(shè)備交互。例如:如果我要預(yù)訂網(wǎng)站上的機票,然后不得不按照網(wǎng)站的步驟進行——選擇目的地、選擇日期、選擇座位、看選項等等。
但是,VUI 有更大的挑戰(zhàn),用戶可以說:“我們想乘坐商務(wù)艙飛往舊金山”?,F(xiàn)在,VUI 必須從用戶那里提取所有相關(guān)信息,以便利用所有的航班預(yù)訂數(shù)據(jù)。但最后排序的結(jié)果可能是有傾向(某一種排序方式)的,因此 VUI 有責(zé)任從用戶那里提取相關(guān)信息(或通過語音或視覺進行補充)。
二、語音交互用戶體驗
以上,我們研究了約束條件、依賴關(guān)系、用戶案例,那么,現(xiàn)在可以開始深入一些研究語音交互相關(guān)的用戶體驗了。
首先來研究設(shè)備如何知道何時該收接收我們的語音。
對于上文,下圖說明了基本的語音交互流程:
表現(xiàn)為……
1. 觸發(fā)器
語音輸入觸發(fā)器有四種類型:
- 語音觸發(fā)——用戶說出一個短語,提示設(shè)備開始處理語音(如:“Ok Google”);
- 觸覺觸發(fā)——按下按鈕(某個鍵或鍵盤輸入)或切換控制(例如:麥克風(fēng));
- 動作觸發(fā)——在傳感器前揮揮手;
- 設(shè)備自觸發(fā)——預(yù)定設(shè)置觸發(fā)設(shè)備(汽車提醒司機確認(rèn)某個任務(wù))。
作為設(shè)計師,你必須了解哪些觸發(fā)器與設(shè)計相關(guān),并且講這些觸發(fā)器從相關(guān)到不相關(guān)進行排序。
2. 引導(dǎo)提示
通常,當(dāng)觸發(fā)設(shè)備時,會有一個聽覺、視覺或觸覺提示。
這些提示應(yīng)該遵循以下可用性原則:
- 實時性——被觸發(fā)后,提示應(yīng)該實時展示,即使這會中斷當(dāng)前的流程(只要這個中斷不是破壞性動作)。
- 簡潔短暫——提示應(yīng)該幾乎是瞬間的,特別對于老用戶。例如:兩聲嗶嗶聲比“好吧,賈斯汀,你想讓我做什么?”更有效。引導(dǎo)提示越長,用戶的話越可能與設(shè)備提示沖突。這一原則也適用于界面提示,屏幕應(yīng)立即轉(zhuǎn)換為監(jiān)聽狀態(tài)。
- 清晰——用戶應(yīng)該知道他們的聲音什么時候開始被監(jiān)聽。
- 一致——提示始終相同,聲音或視覺反饋的差異會讓用戶覺得困惑。
- 區(qū)別——提示應(yīng)該與設(shè)備的常規(guī)的聲音和視覺效果有所不同,并且不應(yīng)在其他環(huán)境中使用或重復(fù)。
- 補充提示——如果可能的話,利用多種交互方式來表示提示(例如:兩遍嗶嗶聲,一次燈光變化或一個界面提示)。
- 初始提示——對于初次使用的用戶,或者當(dāng)用戶不知所措時,你可以顯示提示或建議,方便繼續(xù)進行語音交互。
3. 反饋用戶體驗
反饋用戶體驗對于成功的語音界面是至關(guān)重要的,它允許用戶將他們認(rèn)為一致且立即確認(rèn)的語音,被設(shè)備攝入和處理;反饋還允許用戶糾正或者肯定他的行為。
以下是一些有助于提供 VUI 有效反饋的交互原則:
- 實時、響應(yīng)式視覺效果——這種視覺反饋在本機語音設(shè)備交互中最常見(例如:手機),它可以在多個聲音維度上創(chuàng)建即時的認(rèn)知反饋:音調(diào)、音色、強度和持續(xù)時間——這些都可以改變實時響應(yīng)的方案。
- 音頻播放——確認(rèn)語音的解釋。
- 實時文本——文本反饋將在用戶說話時逐漸顯示。
- 輸出文本——在用戶完成語音后,轉(zhuǎn)換和修改文本反饋,在將音頻確認(rèn)或轉(zhuǎn)換為行為動作之前,將這視為第一層的糾正處理。
- 非屏幕視覺提示(燈光,燈光模式)——上面提到的響應(yīng)式視覺效果,不僅限于數(shù)字屏幕,這些響應(yīng)模式也可以以簡單的LED燈或燈光模式體現(xiàn)。
4. 結(jié)束提示
該提示意味著設(shè)備停止接收用戶語音,并且開始處理命令。許多相同的“引導(dǎo)提示”原則,也適用于最終提示(即時、簡短、清晰、一致和區(qū)分)。
不過,還有一些其他原則也需要注意:
- 充足的時間——確保用戶有足夠的時間完成命令;
- 適應(yīng)時間——被分配的時間應(yīng)該適應(yīng)用例的預(yù)期響應(yīng),例如:如果用戶被問到“是”或“否”的問題,則結(jié)尾提示應(yīng)該在一個音節(jié)之后期望合理的暫停;
- 合理的暫停——上一刻接收的語音有合理的停頓時間嗎?計算這個時間非常復(fù)雜,但也取決于交互用例本身。
三、會話式交互
像“打開我的鬧鐘”這樣的簡單命令,不一定需要冗長的對話,但更復(fù)雜的命令卻需要。與傳統(tǒng)的人與人交互不同,人與 AI 的交互需要額外的確認(rèn)、冗余和糾正。
更復(fù)雜的命令或迭代對話通常需要更多次語音交互、選項驗證,以確保準(zhǔn)確。更為復(fù)雜的是,用戶常常不知道該問什么,也不知道該怎么問。因此,VUI 的工作就是理解消息,并允許用戶提供上下文。
- 肯定性——當(dāng) AI 確實理解語音時,它回復(fù)肯定消息,同時這條消息也確認(rèn)了對語音的理解。例如:人工智能不是說“當(dāng)然”,而是說“當(dāng)然,我會把燈關(guān)掉”——或者“你確定要我關(guān)燈嗎?”
- 修正性——當(dāng) AI 無法解讀用戶意圖時,應(yīng)使用修正選項進行響應(yīng),允許用戶選擇另一個或重新對話。
- 善解人意——當(dāng) AI 無法滿足用戶的請求時,它應(yīng)該因缺乏理解而獲得所有權(quán),然后為用戶提供糾正措施,同理心對于建立一種更和藹可親的關(guān)系非常重要。
四、擬人化交互
將類人特征賦予語音交互,會在人與設(shè)備之間建立一種關(guān)系。這種擬人化以各種方式展現(xiàn):燈光模式、反彈形狀、抽象球形圖案、計算機生成的語音和聲音。
擬人化是指給事物(非人類實體)賦予人類特征、情感或意圖。
擬人化在用戶和機器之間建立了一種更緊密的聯(lián)系,這也可以跨越具有類似操作平臺的產(chǎn)品(例如:谷歌的助手、亞馬遜的 Alexa 和蘋果的 Siri)。
- 個性化——為交互帶來額外的維度,允許事物的虛擬人格與用戶建立聯(lián)系和共鳴,有助于減輕語音處理錯誤的負(fù)面影響;
- 積極性——積極鼓勵重復(fù)性的互動和肯定的語調(diào);
- 信心和信任——鼓勵更多的互動和復(fù)雜的對話,因為用戶更有信心結(jié)果是積極的,從而增加了價值。
五、端到端的交互
語音交互應(yīng)該是流動的和動態(tài)的(彼此一言一語的對話)。當(dāng)我們面對面交談時,我們常會使用大量的面部表情、音調(diào)變化、肢體語言和動作。語音交互的挑戰(zhàn)在于,在數(shù)字化環(huán)境中捕捉這種不固定的交互變化是很困難的。
如果可能,整個語音交互體驗感覺應(yīng)該像是一種有益的互動。當(dāng)然,更多短暫的互動,如:“關(guān)燈”并不一定需要一個完整的關(guān)系。但是,任何一種更強大的互動,如與語音助理一起烹飪,確需要長時間的對話。
有效的語音交互體驗將受益于以下原則:
- 短暫的——無縫處理不同狀態(tài)之間的轉(zhuǎn)換,用戶應(yīng)該感覺到他們沒有等待時間,且助理在為他們工作。
- 生動的——鮮艷的色彩傳達喜悅和未來主義,它為互動增添了一種未來主義優(yōu)雅的元素,鼓勵重復(fù)性互動。
- 響應(yīng)式——回應(yīng)用戶輸入語音和手勢,給出關(guān)于正在處理信息的提示,并允許用戶查看語音、意圖是否被準(zhǔn)確的解析。
六、結(jié)論和資源
VUI 非常復(fù)雜,且有多個方面,通常是復(fù)雜的混合(多種交互手段)交互。
事實上,它還沒有一個全面的定義。不過要記住重要的一點——一個日益數(shù)字化的世界意味著,我們在設(shè)備上花費的時間,可能比在彼此上花費的時間要多。VUI 是否會成為我們與世界互動的主要方式嗎?讓我們拭目以待。
與此同時,你是否打算構(gòu)建一個世界級的 VUI?
作者:Justin Baker
原文鏈接:https://medium.muz.li/voice-user-interfaces-vui-the-ultimate-designers-guide-8756cb2578a1
譯者:Anne
本文由 @Anne 翻譯發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Pixabay,基于 CC0 協(xié)議
- 目前還沒評論,等你發(fā)揮!