黄色网站三级片,最近中文字幕视频在线mv,日韩免费无码专区精品观看

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

終極設(shè)計師指南：語音用戶界面（VUI）

Anne

2019-03-11

0 評論 5024 瀏覽 38 收藏

23 分鐘

一個日益數(shù)字化的世界意味著，我們在設(shè)備上花費的時間可能比在彼此上花費的時間要多。而語音交互是否會成為我們與世界互動的主要方式呢？

“設(shè)置早上7:15的鬧鐘”

——“好的，呼叫Selma Martin 中”

“不是不是！是設(shè)置早上 7:15 的鬧鐘”

——“很抱歉。我不懂您在說什么。”

“哎～”（開始手動設(shè)置鬧鐘）

我們的聲音形形色色，并且復(fù)雜多變。語音命令甚至更難處理——在人與人之間尤其如此，更不用說計算機了。我們構(gòu)思、進行文化交流，以及我們使用俚語和推斷意義的方式……所有這些細微差別都會影響我們語言的理解和表達。

那么，設(shè)計師和開發(fā)如何應(yīng)對這一挑戰(zhàn)呢？怎么才能建立人和AI（人工智能）之間的信任？

這時候語音用戶界面（VUI）就有了用武之地。語音用戶界面（VUI）主要是輔助用戶的視覺、聽覺和觸覺，完成用戶與設(shè)備之間的語音交互。

簡而言之，語音用戶界面（VUI）可以是任何事物，從聽到您的聲音時閃爍的燈光到汽車娛樂控制臺。

請記住，語音用戶界面（VUI）無需可視化界面，它完全可以是聽覺的或觸覺控制的（例如：振動）。語音用戶界面（VUI）主要是輔助用戶的視覺、聽覺和觸覺，完成用戶與設(shè)備之間的語音交互。

雖然VUI種類繁多，但是可共享同一套設(shè)計規(guī)范，這套設(shè)計規(guī)范影響可用性。我們可以一起探討這套規(guī)范，因此作為用戶，可以分析日常的VUI交互；作為設(shè)計師，可以創(chuàng)造更好的體驗。

一、發(fā)現(xiàn)——約束條件、依賴關(guān)系以及用例

我們與世界的的互動方式受到技術(shù)、環(huán)境以及社會限制的極大影響，例如：我們處理信息的速度。

將信息轉(zhuǎn)化為行動的準(zhǔn)確性，用來傳達信息的語言/方言，以及該行動的接收者（不管是我們自己還是其他人）都會影響我們處理信息的數(shù)據(jù)。

在我們深入研究交互設(shè)計之前，首先我們必須要定義語音交互環(huán)境背景的構(gòu)成。

1. 確定設(shè)備類型

設(shè)備類型影響語音交互的方式、原始語音輸入和語音范圍。

移動設(shè)備：

蘋果、Pixels、Galaxies
連接——蜂窩網(wǎng)絡(luò)、Wi-Fi、設(shè)備配對
環(huán)境背景對語音交互有重大影響
用戶習(xí)慣于使用語音交互
允許通過視覺、聽覺和觸覺反饋進行交互
在各種模型中建立標(biāo)準(zhǔn)化的交互方法

可穿戴設(shè)備：

特定于用例，通常面向特定用例，如手表、健身帶，或智能鞋
連接——蜂窩網(wǎng)絡(luò)、Wi-Fi、設(shè)備配對
用戶可能習(xí)慣于使用語音交互，但這種交互在設(shè)備之間是非標(biāo)準(zhǔn)化的
一些可穿戴設(shè)備允許用戶通過視覺、聽覺和觸覺反饋進行交互——但有一部分沒有明確的交互，比較被動
通常用戶交互和數(shù)據(jù)消費都依賴于連接的設(shè)備

固定連接設(shè)備：

臺式機、帶屏幕的設(shè)備、恒溫器、智能家居、音響系統(tǒng)、電視
連接——蜂窩網(wǎng)絡(luò)、Wi-Fi、設(shè)備配對
用戶習(xí)慣于在相同的位置使用這些設(shè)備并在習(xí)慣的基礎(chǔ)上進行設(shè)置
類似設(shè)備類型之間的準(zhǔn)標(biāo)準(zhǔn)化語音交互方式（臺式機 VS 連接集線器，就像Google Home / Amazon Alexa VS 智能恒溫器）

非固定計算設(shè)備（非電話）：

筆記本、平板電腦、轉(zhuǎn)發(fā)器、汽車信息娛樂系統(tǒng)
連接——無線、有線（不常見）、Wi-Fi、設(shè)備配對
通常主要輸入方式不是語音
環(huán)境對語音交互有重大影響
通常在不同的設(shè)備之間有非標(biāo)準(zhǔn)化的語音交互方法

2. 創(chuàng)建用例矩陣

語音交互的三個主要用例是什么？該設(shè)備是否有一個主要用例（如健身追蹤器）？或者是否有組合用例（如智能手機）？

創(chuàng)建一個用例矩陣是非常重要的，它將幫助你確定：

為何用戶與設(shè)備交互？
交互的主要方式是什么？
什么是次要的？
什么是好的交互模式？
什么是必不可少的？

你可以為每種交互模式創(chuàng)建用例矩陣。當(dāng)應(yīng)用于語音交互時，矩陣將幫助你了解用戶當(dāng)前使用或想要使用語音與產(chǎn)品交互的方式，包括他們將使用的語音助手的位置。

3. 按順序排列交互模式

如果實施用戶研究去驗證用例（抑或是可用性或定性/定量分析），那么通過給交互模式排列次序等級就變得十分有必要了。

如果有人告訴你：“如果我能跟電視交流讓它換頻道，這真的是太酷了！”

那么你真的需要深入了解：他們真的會用么？他們了解這些限制嗎？他們真的知道自己使用這些功能的傾向嗎？

作為設(shè)計師，必須了解用戶勝過他們自己。你必須質(zhì)疑他們交互的方式，因為有替代方案可選。例如：假設(shè)我們正在研究用戶是否會與電視互動。在這種情況下，可以大膽的假設(shè)語音交互只是諸多交互手段之一。

用戶有多種手段可選：遙控器、配對的智能手機、游戲手柄或連接的物聯(lián)網(wǎng)設(shè)備。因此，語音交互不一定是默認(rèn)的交互方式，它只是眾多方式之一。

因此問題就變成了：語音交互變?yōu)橹髁鹘换ナ侄蔚目赡苄杂卸啻?？如果不是主要的手段，那會是次要的嗎？或者第三？這將向前推進你的推斷和交互假設(shè)。

4. 技術(shù)限制實例

把我們的語言轉(zhuǎn)化為行動是一項極其困難的技術(shù)挑戰(zhàn)。通過時間、連接和訓(xùn)練，調(diào)優(yōu)的計算引擎可以聽懂我們的話并作出適當(dāng)?shù)膭幼鳌?/p>

不幸的是，我們生活的世界無線連接并沒有想象中的廣泛（如：互聯(lián)網(wǎng)），也沒有無限的時間。我們希望語音交互能與其他習(xí)慣的交互一樣直接：視覺上的和觸覺上的——即便語音引擎需要復(fù)雜的處理和預(yù)測建模。

以下是一些實例流程，展示了我們在演講過程中識別的過程：

正如我們所看到的，許多的模型都需要使用的詞語、音調(diào)、音色來進行不斷的訓(xùn)練。

每種語音識別引擎都有一些技術(shù)限制，在構(gòu)建語音交互體驗時，必須考慮到這些限制。

分析以下分類：

連接水平——設(shè)備是否始終連接網(wǎng)絡(luò)？
處理速度——用戶是否需要實時處理語音？
處理精度——如何權(quán)衡準(zhǔn)確度與處理速度？
語音模型——當(dāng)前模型的效率怎么樣？能準(zhǔn)確的處理整句還是簡短的單詞？
備選方案——如果無法進行語音識別，備選方案是什么？用戶有其他的交互模式選擇嗎？
結(jié)果誤差——處理過程中一個錯誤的命令會不會導(dǎo)致不可逆的結(jié)果？語音識別引擎是否能夠避免這種不可逆的錯誤？
環(huán)境測試——語音引擎是否在復(fù)雜環(huán)境下進行過測試？例如：如果我構(gòu)建汽車的信息娛樂系統(tǒng)，相比智能恒溫器我會設(shè)想更多的干擾環(huán)境。

5. 非線性

此外，我們還應(yīng)該考慮用戶能夠以非線性的方式與設(shè)備交互。例如：如果我要預(yù)訂網(wǎng)站上的機票，然后不得不按照網(wǎng)站的步驟進行——選擇目的地、選擇日期、選擇座位、看選項等等。

但是，VUI 有更大的挑戰(zhàn)，用戶可以說：“我們想乘坐商務(wù)艙飛往舊金山”?，F(xiàn)在，VUI 必須從用戶那里提取所有相關(guān)信息，以便利用所有的航班預(yù)訂數(shù)據(jù)。但最后排序的結(jié)果可能是有傾向（某一種排序方式）的，因此 VUI 有責(zé)任從用戶那里提取相關(guān)信息（或通過語音或視覺進行補充）。

二、語音交互用戶體驗

以上，我們研究了約束條件、依賴關(guān)系、用戶案例，那么，現(xiàn)在可以開始深入一些研究語音交互相關(guān)的用戶體驗了。

首先來研究設(shè)備如何知道何時該收接收我們的語音。

對于上文，下圖說明了基本的語音交互流程：

表現(xiàn)為……

1. 觸發(fā)器

語音輸入觸發(fā)器有四種類型：

語音觸發(fā)——用戶說出一個短語，提示設(shè)備開始處理語音（如：“Ok Google”）；
觸覺觸發(fā)——按下按鈕（某個鍵或鍵盤輸入）或切換控制（例如：麥克風(fēng)）；
動作觸發(fā)——在傳感器前揮揮手；
設(shè)備自觸發(fā)——預(yù)定設(shè)置觸發(fā)設(shè)備（汽車提醒司機確認(rèn)某個任務(wù)）。

作為設(shè)計師，你必須了解哪些觸發(fā)器與設(shè)計相關(guān)，并且講這些觸發(fā)器從相關(guān)到不相關(guān)進行排序。

2. 引導(dǎo)提示

通常，當(dāng)觸發(fā)設(shè)備時，會有一個聽覺、視覺或觸覺提示。

這些提示應(yīng)該遵循以下可用性原則：

實時性——被觸發(fā)后，提示應(yīng)該實時展示，即使這會中斷當(dāng)前的流程（只要這個中斷不是破壞性動作）。
簡潔短暫——提示應(yīng)該幾乎是瞬間的，特別對于老用戶。例如：兩聲嗶嗶聲比“好吧，賈斯汀，你想讓我做什么？”更有效。引導(dǎo)提示越長，用戶的話越可能與設(shè)備提示沖突。這一原則也適用于界面提示，屏幕應(yīng)立即轉(zhuǎn)換為監(jiān)聽狀態(tài)。
清晰——用戶應(yīng)該知道他們的聲音什么時候開始被監(jiān)聽。
一致——提示始終相同，聲音或視覺反饋的差異會讓用戶覺得困惑。
區(qū)別——提示應(yīng)該與設(shè)備的常規(guī)的聲音和視覺效果有所不同，并且不應(yīng)在其他環(huán)境中使用或重復(fù)。
補充提示——如果可能的話，利用多種交互方式來表示提示（例如：兩遍嗶嗶聲，一次燈光變化或一個界面提示）。
初始提示——對于初次使用的用戶，或者當(dāng)用戶不知所措時，你可以顯示提示或建議，方便繼續(xù)進行語音交互。

3. 反饋用戶體驗

反饋用戶體驗對于成功的語音界面是至關(guān)重要的，它允許用戶將他們認(rèn)為一致且立即確認(rèn)的語音，被設(shè)備攝入和處理；反饋還允許用戶糾正或者肯定他的行為。

以下是一些有助于提供 VUI 有效反饋的交互原則：

實時、響應(yīng)式視覺效果——這種視覺反饋在本機語音設(shè)備交互中最常見（例如：手機），它可以在多個聲音維度上創(chuàng)建即時的認(rèn)知反饋：音調(diào)、音色、強度和持續(xù)時間——這些都可以改變實時響應(yīng)的方案。
音頻播放——確認(rèn)語音的解釋。
實時文本——文本反饋將在用戶說話時逐漸顯示。
輸出文本——在用戶完成語音后，轉(zhuǎn)換和修改文本反饋，在將音頻確認(rèn)或轉(zhuǎn)換為行為動作之前，將這視為第一層的糾正處理。
非屏幕視覺提示（燈光，燈光模式）——上面提到的響應(yīng)式視覺效果，不僅限于數(shù)字屏幕，這些響應(yīng)模式也可以以簡單的LED燈或燈光模式體現(xiàn)。

4. 結(jié)束提示

該提示意味著設(shè)備停止接收用戶語音，并且開始處理命令。許多相同的“引導(dǎo)提示”原則，也適用于最終提示（即時、簡短、清晰、一致和區(qū)分）。

不過，還有一些其他原則也需要注意：

充足的時間——確保用戶有足夠的時間完成命令；
適應(yīng)時間——被分配的時間應(yīng)該適應(yīng)用例的預(yù)期響應(yīng)，例如：如果用戶被問到“是”或“否”的問題，則結(jié)尾提示應(yīng)該在一個音節(jié)之后期望合理的暫停；
合理的暫停——上一刻接收的語音有合理的停頓時間嗎？計算這個時間非常復(fù)雜，但也取決于交互用例本身。

三、會話式交互

像“打開我的鬧鐘”這樣的簡單命令，不一定需要冗長的對話，但更復(fù)雜的命令卻需要。與傳統(tǒng)的人與人交互不同，人與 AI 的交互需要額外的確認(rèn)、冗余和糾正。

更復(fù)雜的命令或迭代對話通常需要更多次語音交互、選項驗證，以確保準(zhǔn)確。更為復(fù)雜的是，用戶常常不知道該問什么，也不知道該怎么問。因此，VUI 的工作就是理解消息，并允許用戶提供上下文。

肯定性——當(dāng) AI 確實理解語音時，它回復(fù)肯定消息，同時這條消息也確認(rèn)了對語音的理解。例如：人工智能不是說“當(dāng)然”，而是說“當(dāng)然，我會把燈關(guān)掉”——或者“你確定要我關(guān)燈嗎？”
修正性——當(dāng) AI 無法解讀用戶意圖時，應(yīng)使用修正選項進行響應(yīng)，允許用戶選擇另一個或重新對話。
善解人意——當(dāng) AI 無法滿足用戶的請求時，它應(yīng)該因缺乏理解而獲得所有權(quán)，然后為用戶提供糾正措施，同理心對于建立一種更和藹可親的關(guān)系非常重要。

四、擬人化交互

將類人特征賦予語音交互，會在人與設(shè)備之間建立一種關(guān)系。這種擬人化以各種方式展現(xiàn)：燈光模式、反彈形狀、抽象球形圖案、計算機生成的語音和聲音。

擬人化是指給事物（非人類實體）賦予人類特征、情感或意圖。

擬人化在用戶和機器之間建立了一種更緊密的聯(lián)系，這也可以跨越具有類似操作平臺的產(chǎn)品（例如：谷歌的助手、亞馬遜的 Alexa 和蘋果的 Siri）。

個性化——為交互帶來額外的維度，允許事物的虛擬人格與用戶建立聯(lián)系和共鳴，有助于減輕語音處理錯誤的負(fù)面影響；
積極性——積極鼓勵重復(fù)性的互動和肯定的語調(diào)；
信心和信任——鼓勵更多的互動和復(fù)雜的對話，因為用戶更有信心結(jié)果是積極的，從而增加了價值。

五、端到端的交互

語音交互應(yīng)該是流動的和動態(tài)的（彼此一言一語的對話）。當(dāng)我們面對面交談時，我們常會使用大量的面部表情、音調(diào)變化、肢體語言和動作。語音交互的挑戰(zhàn)在于，在數(shù)字化環(huán)境中捕捉這種不固定的交互變化是很困難的。

如果可能，整個語音交互體驗感覺應(yīng)該像是一種有益的互動。當(dāng)然，更多短暫的互動，如：“關(guān)燈”并不一定需要一個完整的關(guān)系。但是，任何一種更強大的互動，如與語音助理一起烹飪，確需要長時間的對話。

有效的語音交互體驗將受益于以下原則：

短暫的——無縫處理不同狀態(tài)之間的轉(zhuǎn)換，用戶應(yīng)該感覺到他們沒有等待時間，且助理在為他們工作。
生動的——鮮艷的色彩傳達喜悅和未來主義，它為互動增添了一種未來主義優(yōu)雅的元素，鼓勵重復(fù)性互動。
響應(yīng)式——回應(yīng)用戶輸入語音和手勢，給出關(guān)于正在處理信息的提示，并允許用戶查看語音、意圖是否被準(zhǔn)確的解析。