一文讀懂,語音交互設計流程
隨著智能音箱的迅速發(fā)展,大家對智能語音產品的需求也變得越來越多,本文給大家詳解語音交互設計的全流程,一起來看看~
一、VUI的現(xiàn)狀
隨著智能音箱的迅速發(fā)展,谷歌(Google Home)、亞馬遜(echo)天貓精靈、小愛音箱……智能產品的井噴式增長,人們對智能語音產品的需求也越來越多,也越來越高,智能音箱對人們的生活的影響也越來越深,自然孕育而生一些新的職業(yè)需求,比如:VUI(語音交互設計師Voice User Interfaces Designer),語音體驗設計師VUE(Voice User Experience Designer),但其實VUI和VUE的分界線是很模糊的,這里不做多敘述。
國際的一些大公司已經做了很好的示范了,比如:亞馬遜,谷歌等等,都會有設立專門的職位,做一些專門的研究,當然近期國內的相關招聘也會看到有相關的職位,且薪資不低。那么接下來會個大家詳細的分享VUI(語音交互設計師Voice User Interfaces)。
二、VUI起源/歷史
1.? VUI的第一個時期
20世紀50年代,貝爾實驗室建立了一個單人語音數(shù)字系統(tǒng);
20世紀90年代,誕生了第一個可行的非特定人的語音識別系統(tǒng)。
交互式語音應答IVR系統(tǒng)的出現(xiàn),代表了VUI的以一個重要時期。
2. VUI的第二個時期
也就是我們現(xiàn)在所處的的時期。
我們的現(xiàn)狀,我們正處于下一階段的初期階段,我們手機已經可以用語音處理很多事情了,但是還有很多事情是無法處通過語音完成的。
3. VUI的一些優(yōu)勢和局限性
(1)優(yōu)勢
- 速度:顯而易見的是速度變快了,國內的語音,語音轉文字的技術已經很大程度上提高了人們效率;
- 釋放雙手:比如你在開車的時候,你可以直接對著你的手機語音助手說,嘿XX,麻煩你幫我做XXX;
- 直覺性:說話是每個人的天性(當然排除特出情況);
- 同理心:語音包含了語氣、音量、音調、語速,這些特征包含了大量的感知信息,能夠讓你感知到對方在表達些什么。
(2)局限性
- 環(huán)境:對環(huán)境的要求比較高,在公共場合,人多的地方不利于語音的接受和錄入;
- 不適應:還是有很多用戶不喜歡,不適應對著語音設備說話的;
- 喜歡打字:就是喜歡打字的一些用戶,打字從某個方面能夠帶給他一些愉悅;
- 隱私:這個就很容易理解了,每個人都不希望自己的隱私被別人知道。
三、VUI設計師是什么(是做什么的)?
- 需要思考,在系統(tǒng)和終端用戶間,從開始到結束的整個個對話過程;
- 用戶研究是不可少的;
- 負責設計,產品原型和產品描述;
- 需要了解底層技術的優(yōu)缺點;
- 分析數(shù)據(jù)的能力。
從項目的發(fā)布階段到發(fā)布階段都扮演著非常重要的角色。
當然很多人看到上面5條可能會有點怵,其實也并不是需要全部都需要會,也可以專門負責其中的一個鏈條、節(jié)點,比如:用戶研究、數(shù)據(jù)分析……
四、VUI的基本設計原則
1. 對話式設計
定義:簡單來說就是我問你答
目前我們使用的智能設備基本只能支持單輪對話,但這樣并不是人們習慣的對話方式。一輪以上的對話,才是符合用戶心理預期的。
請大家回憶下自己使用智能音箱的一些場景體驗,舉個例子(天貓精靈):
- 用戶:天貓精靈,明天我有鬧鐘么?
- 天貓:您明天沒有鬧鐘呢
- 用戶:那可以幫我設定一個么?
- 天貓:…..
你會發(fā)現(xiàn),智能音箱這個時候像是失憶了一般,毫無反應,顯然這并不是我們想要的一個交互。從用戶社交屬性來說,人們溝通的方式一直都是一輪以上對話式的,并不是單輪式的。一般來說,我們要做到讓用戶決定對話要持續(xù)多久,很顯然,你有親身體驗過的話,能做到多輪對話的比較少。
插一個題外話,最近天貓精靈更新了游戲語音的玩法,算是踏進一步了吧,雖然不是很棒的體驗,但起碼跨進了多一步,相信未來會越來越棒的。那對話式是如何設計出來呢?大致是怎么樣的一個流程呢?
2. 設計工具
這里說的設計工具并不是說是一個具體的工具,更多是指一個方法論。
示例對話:
- 定義:示例對話字面意思就是演示舉例對話,它看起來像一個電影腳本,像兩個人一起在對話
- 特點:是整個設計對話過程的關鍵方法。成本較低,簡單易操作
- 用法:把要做成一件事情的場景用文字寫出來,然后大聲讀出來,你會發(fā)現(xiàn)書寫和口語化的還是有很多區(qū)別的,甚至是有些奇怪的,這時候你會發(fā)現(xiàn)有很多可以改進的地方,所以你會看到一些招聘都會有這一項對應的要求,甚至是要求一些事有話劇功底,有劇本寫作相關經驗優(yōu)先。
- 作用:它能夠讓你在投入開始研發(fā)之前,知道你的設計效果是如何。
3.?視覺原型
雖然是語音交互,但是還是離不開GUI的,它可以結合示例對話,將用戶體驗可視化。示例對話和原型組成了我們產品的故事板,GUI+VUI是用戶一套完整的體驗,所以,VUI和GUI在早期階段就開始合作,這樣對用戶體驗會更加流暢。
4. 流程圖
也叫做呼叫流程圖,一般來說我們的流程圖需要包括用戶使用中所有可能存在的分支,但這樣下來會有千萬條復雜的情況,流程圖就會很亂,也很難梳理,所以我們采用分組的方法。
具體的分類的方法可以根據(jù)分成多組(日歷功能、搜索功能,電話……),也可以根據(jù)不同的目的進行分組。
流程圖的使用到的工具就非常多了,這里就不一一列舉了。
那大概我們設計完成了一組示例對話之后,我們就要對一些細節(jié)進行細致的研究,比如:確認。
五、如何進行確認
- 用戶語音的確認
- 非語言式確認
- 通用確認
- 視覺的確認
1. 用戶語音的確認
最重要的是用戶語音的確認,分為顯性確認和隱形確認。
- 顯性確認即:比較重要,強制用戶確認信息。比如:天貓精靈你能幫我一份奶茶么?查到附近XXX奶茶,使用優(yōu)惠后的價格是XX元,你要來一份么?
- 隱形確認:即不需要用戶確認消息,比如:用戶:XX你能幫我設定明天10點的鬧鐘么?好的,已經幫你設定好明天早上10點的鬧鐘。
1.1 那么如何去判定什么時候用隱性確認和顯性確認呢?
那么下面就要介紹一下三級置信度。
系統(tǒng)將在一定的閥值內作出明確的形式確認信息,而這個閥值我們設定為三個等級。
1.2 置信度?
就是智能音箱能識別到聲音的清晰度。
用易懂的話說就是人與人之間溝通的語言接受的清晰度,當然聽不清對方說什么話的時候時候一般會發(fā)起詢問,或者直接說,對不起,我沒有聽清,你可以再說一遍嗎?
1.3 三級置信度
比如:幫我再買一份外賣。
- 當置信度大于80%,使用隱性確認:好了已經幫你在訂了一份外賣。
- 當置信度為45~79%,使用顯性確認:您是想再多訂一份外賣是嗎?
- 當置信度小于45%:對不起,我沒有聽清您的講話,您想買些什么?
2. 只用隱形確認
智能語音音箱能夠非常清晰的識別到你說的內容的時候,可以直接用隱形確認,這樣帶來的體驗流暢感舒服很多。
3. 非語言式
比如說,燈光花幾秒才能,那么只是讓系統(tǒng)先恢復好了或者知道的來讓用戶知道后面發(fā)生什么。還有加一些特定的音效,來代表特定某一個意思。
4. 有趣的通用確認
就是說智能語音音箱不會單獨的回答你是和否,會主動會詢問您一些的問候,通過這樣情感化的一些設計,將能夠讓用戶感到更加的溫暖和舒服。
那我們前面講到了那么多的一些確認策略,那我們接下來再說一下對話式的標識,因為是讓用戶了解交談進展以及進展情況的重要方式。
5. 對話式的標識
它包括了以下三個方面:
- 時間線:開始,進行中,結束。
- 接收回執(zhí):謝謝,知道了,好的。了解了。
- 積極反饋:哇,你這個消息真的很棒。
那對話式對話作用是什么呢?是讓用戶了解交談進展以及進展情況的重要方式。能夠更好的追蹤到用戶的使用過程中的一種路徑方法。
大家會發(fā)現(xiàn)我們很多時候智能語音設備并不是每次都能夠快速,精準接受識別我們的信息的。出錯率相對來說是比較高的,下面大概說下語音識別的出現(xiàn)錯誤異常的幾種情況。
六、語音出現(xiàn)錯誤異常和解決方法
錯誤異常的幾種情況:
- 未檢測到語音;
- 檢測到語音,但沒有識別;
- 檢測到語音,但沒有識別;
- 部分語音識別錯誤。
1. 未檢測到語音
未檢測到語音有大概兩種情況:一是用戶說了,系統(tǒng)沒有接收到;二是用戶沒說。
主要說下用戶說了,系統(tǒng)沒有接收到的情況,建議采取兩種解決方式:
- 第一種前面我們說到的三級置信度,我們采取直接詢問,“對不起,我沒有聽清你說的話,你能再說一遍么?”
- 第二種是采取什么也不做。
1.1 那什么情況下使用詢問呢?
- 用戶必須回復后,系統(tǒng)才能繼續(xù)進行任務;
- 你的系統(tǒng)只是支持語音;
- 沒有其他回復方式了。
1.2 什么情況下更適合使用什么也不做呢?
- 用戶還有其他選擇(比如手機界面課、通過一個按鍵操作);
- 什么也不做,不會中斷對話;
- 有視覺信息可以提示用戶做出明確的選擇。
2. 檢測到語音,但沒有識別
處理方式和未檢測到語音基本是一直的,這里就帶過了。
3. 檢測到語音,但沒有識別
出現(xiàn)這種情況的原因一般是兩點:
- 系統(tǒng)程序沒有針對這種情況的回復;
- 程序中寫了錯誤的回復。
解決方法:這里我們就要通過測試來發(fā)現(xiàn)具體是哪個環(huán)節(jié)出了問題了,通過數(shù)據(jù)的收集分析能夠找到具體的答案。
4. 部分識別錯誤
大概就是這樣的場景,天貓精靈,嗯……我想……嗯,好的,為您帶來一首XXX的歌曲。
解決方法:這個還是需要技術的介入,可以通過使用N-Best列表(可以通過這個列表規(guī)避二次錯誤)和鎮(zhèn)適用固件后相應的數(shù)據(jù)分析來構建此問題的解決方法。
說完了錯誤異常處理以及解決方式,我們接下來說下延遲和消除歧義。
5. 延遲
在交互一般用戶等待的時間是7秒(現(xiàn)在可能是5秒),當你詢問等待回答的時間超過這個閾值,用戶就會懷疑是不是系統(tǒng)出問題了,甚至煩躁。
解決方法:一是通過“請稍等”讓用戶知道你在運作和查找;二是非語言提示,比如:音效等等。
6. 消除歧義
很多時候用戶提供的信息只有一部分,再加上中文的多層含義的特殊性,消除歧義對用戶體驗的的提升有重要作用。
比如:問地名的天氣,中國很多鎮(zhèn)區(qū)的地名都是一樣的。
鼓樓:
- 河南省_開封市_鼓樓區(qū)
- 福建省_福州市_鼓樓區(qū)
- 江蘇省_南京市_鼓樓區(qū)
- 江蘇省_徐州市_鼓樓區(qū)
解決方法:還是可以采用置信度的方式去判別,如果很確定就直接回答,要么就多輪詢問確定。
7. 幫助功能
最后的模塊說下幫助功能,也是至關重要的,能夠在一定程度上消除用戶的“恐慌”。所以,在我們VUI中設計對應的幫助是非常有必要的,比如:詢問智能語音設備你能干什么呢?它會告訴你他能做些什么?比如:我的設備怎么樣鏈接你的藍牙。APP:好的,長按……
七、語音交互的幾點原則
- 應該是省時、高效的
- 簡短的
- 能夠被隨時打斷
- 能夠鏈接上下文語境
1. 應該是省時、高效的
和視覺界面交互其實是差不多的,用戶是非常不愿意花很多時間達到他想要完成的任務的。越高效,越短時間,用戶的體驗會更加愉悅。
2. 簡短的
只需要告訴用戶主要關鍵信息即可,不要過于冗余。舉個簡單的例子:購物APP的商品表現(xiàn)形式,一般都是把名稱和價格放在主要的位置,把詳情放進下一級頁面。采用盡可能簡短的表現(xiàn)形式,讓用戶直接獲取到他想要的,當然這對用戶的了解和洞察都要需要經驗的積累和感知的
3. 能夠被隨時打斷
舉個例子,用戶:明天的天氣怎么樣?
APP:明天XXX地方的天氣19℃,小雨,適合穿…….
用戶可能只是想知道天氣而已,這時候我們是需要做到可以被用戶打斷,而不是“執(zhí)拗”的把話說完,如果一直說下去,不允許用戶打斷,用戶的請求沒有被回應,這時候用戶會產生反感心理。
4. 能夠鏈接上下文語境
這是目前很多智能語音設備體驗上沒有那么好的地方,也就是前面說的,可以進行多輪對話,當然如果要設定多輪對話,中間的交互情況將會比現(xiàn)在更佳龐大,需要考慮的可能性也會更佳復雜。
語音交互設計的前半部分設計流程基本已經概述完了,主要說了VUI的起源,一些VUI中用到的一些方法論,設計工具,一些異常情況的處理,和VUI設計的幾點原則。下面將會和大家聊下用戶測試和預發(fā)布、確認發(fā)布……
八、用戶測試
語音用戶界面的測試其實和視覺界面測試的方法有一些相同的地方,但也有一些差異。
一般來說,在開始測試之前呢,還是需要做用戶調研的,大概分為以下幾個步驟:
1. 了解需求(用戶用例背景研究)
做用戶研究和訪談之前,我們要先搞清楚,這個利益方的需求是什么,業(yè)務需求,用戶訴求是什么,我們的產品能夠給用戶帶來什么?能夠給他們解決什么問題?最后我們要確定我們的目標用戶,然后進行訪談和調研。(大體的方法,詳細可以去看一下阿里提出的五導家加方法論)
2. 制定設計研究方案
2.1 給目標用戶制定,任務流程
就是給每一個受訪的用戶,一個特定的任務流程,但很多時候我們并不是只是測試一個任務,會有很多任務,那就會涉及到任務排序的問題。還有最好的方法是采用拉丁方陣設計,這樣的話不必通過出現(xiàn)所有可能的排斥方式來試驗。
那么設定好這次任務之后呢,我們就要進行招募受試人員了。
2.2 招募受試人員
需要注意以下幾點:
- 要在目標用戶里抽取測試用戶;
- 人數(shù)大概控制在5~12人,可用性專家Jakob Nielseb提出效果一般控制在5-8人左右為最佳。
對于小公司招募測試用戶可能會相對比較困難,成本相對來說會比較高,當然是可以招募你身邊的朋友和公司的同事來協(xié)助你的,但最好避開項目的直接核心人員。
那么在目前人員完成之后呢,我們大概會進行一些進行中的一些測試,比如說:我們做一些提問。
請問這里會涉及到一個方法,我們在交互設計里面叫它為用戶體驗地圖。
3. 用戶體驗地圖
我會給到用戶一些任務的體驗流程,然后根據(jù)他的一些反饋,通過語言、表情,然后繪制出用戶體驗地圖,從而判斷出用戶在這個任務流程中,得到了一些體驗感受,找到可能存在問題的所在節(jié)點,然后進行修改。
下面說下在訪談中需要注意的點,如何進行訪談。
4. 訪談需要注意的點
那么在口頭提問的過程中,我們需要注意些什么呢?
- 提問不要有一些語句上的偏袒,不要出現(xiàn)故意引導,比如說你喜歡這個功能嗎?這樣提問是不太合理的。最好提問是,你用完這個功能之后,你是什么樣的一個感受?或者說你覺得怎么樣?
- 要注意引導用戶得出具體的結論。而不是用戶說大概,可能我覺得應該是等等之類的詞。要有具體的例子,不要一個抽象的結果。
- 少用為什么開頭,會讓受訪者覺得你是在質疑他,或者說故意的,刁難他。比如說受訪者說,語音天氣詢問功能特別難用,能夠簡單說一下你的使用場景嗎?他是在什么情況下讓你感覺到難用?描述我們需要更加具體化一些,而不是籠統(tǒng)的,抽象的。
5. 可用性測試(用戶調研)
目的是測試工作流程和易用性,但是在語音交互過程中,識別問題往往會阻礙用戶完成任務。最好是找?guī)孜粶y試用戶,嘗試找出主要的識別問題,然后修復它。
可用性測試大概分為幾類:
(1)遠程測試(電話/視頻訪談)
優(yōu)點:
- 更容易找到符合特征的用戶。
- 成本較低,只需要遠程即可,不需要支付其他額外的支出,比如說來到你約定地方差旅費。
- 會更加自然,更貼近真實情景。
- 用戶心理負擔沒有那么大會比較自在。
- 可以沒有測試主持人。
- 條件允許的話,最好使用視頻通話,這樣我們可以錄制影像,后期方便我們去觀察用戶的表情和反應,以得出更加正確的測試結果。
缺點:沒有辦法實時跟進參與人員的反應。
(2)攔訪
這種測試方式是非常有難度的。意味著我們要去到公共場合去攔截受訪者,然后讓他參與到你這個測試當中,因為人與人的戒備心理,所以很多人都會拒絕你,如果你想提高成功率,最好準備一些小禮品或者其他的小獎勵,這樣有助于你提高攔訪的成功率。
當然你也很有可能得到的結果,會有一些偏差,受訪者會出于某些目的而回答你的一些問題,有可能并不是出于真心的。所以呢,這里不是很建議大家用這種方法。
(3)測試完成
測試完之后,我們需要進行我們的結果分析和統(tǒng)計。
測試衡量的一些指標,我們大概分為5個關鍵指標:準確性、響應速度、認知速度,清晰度、友好度和聲音。
(4)注意事項
這里需要注意的點是,一定先要預先設定好,確定每項任務完成的標志是什么。不然后期對結果的一個標準很難去統(tǒng)計,會比較混亂。
我們需要總結這是用戶對問題的回答及完成任務率錯誤數(shù)量和類型等等,從中找出用戶的痛點,用戶的一些干擾點。按任務出錯時,用戶是否能夠自己解決呢?等等,具體需要得出的一些結論,要根據(jù)自己想要測試的一些目的來定。
在這樣我們就完成了整個可用性測試的流程。
6. 預測試
發(fā)布之前需要做一次與測試,可以權重沒有那么高,但也是關鍵的一步。
7. 識別測試
最重要的還是識別測試,這關系著整個產品的體驗問題,整體的測試流程需要用三級置信度和N-Best列表,以及后臺的表格相結合,找出相對應的問題節(jié)點,并且修復它。
8. 負載測試
你得清楚明白你的設備,最多的承載量,不然流量一進來,服務器就崩潰了,這樣的體驗是極其差的。
9. 效果的評估
你還得去做效果的評估。在試運行開始之前,你需要制定目標,然后看是否達到這個目標,這個效果大概是什么樣的?是否達到預期?任務的完成率也是非常關鍵的一個成功指標。
10. 試運行→發(fā)布
最后到達發(fā)布階段。為了產品的穩(wěn)妥起見,我們還是會進行一次試運行。
11. 迭代
條件允許的話,重復上面一次的用戶調研的方法,然后得出一些現(xiàn)階段的一些問題。我們需要實時跟蹤系統(tǒng)的故障并快速的改進,這是我們非常需要要做到的。
總結
大概全部的語音交互流程就說到這里了,我們簡單的回顧下:
- 語音交互設計的起源
- 語音交互設計的設計原則-示例對話
- 確認原則/糾錯方法-三級置信度
- 可用性測試
- 發(fā)布
那語音交互設計的未來點在那里?設計師的機會在哪里?
戰(zhàn)略選擇:世界一直都是存在不確定性的,如何能夠應對呢?
眼界和選擇。
這里延伸下梁寧在《產品思維30講》里面說到的點線面的戰(zhàn)略選擇的問題,她大概說了這樣的例子:比如有一對雙胞胎,2010年一起大學畢業(yè),一個進入了騰訊,一個進入了報社。7年之后呢,騰訊的那位如果不出意外應該是年薪百萬,而且滿街都是獵頭在挖,投資人在挖,只要出來創(chuàng)業(yè)就給錢。而去了報社的那位呢,報社的情況我們今天肯定了解整個產業(yè)都沉淪了,曾經他寄托理想的整個產業(yè)都沒有了,其實一切都需要重來。
在這個時候并不是說雙胞胎他們的個人的素質有問題,或者是他們的能力點有問題,點是沒有問題的,也不是他們分別跟隨的領導,比如說我們就跟老大,他們的老大的能力點和個人操守也都是沒有問題的,但是問題在哪里?
問題是說這兩個單位所附著的經濟體,一個是在快速崛起,一個是在快速崩潰。你努力工作的公司收益,遠遠不如你在2010年以前或者2013年以前,比如說買騰訊的股票,或者是說你買一套北上廣的房子,
我們本身是一個點,我們這個點需要附著在整個整個快速崛起的“線”上,戰(zhàn)略的選擇,眼界的層面顯得尤為重要,和努力一樣重要,甚至往往有時候選擇比努力更重要,但選擇也是努力累計的結果。
我們設計師如何做出順應這個迅速崛起的經濟體的選擇,也是我們當下的機會,我們能看到什么機會,我們要附著到什么樣的線上,在當下職業(yè)邊界愈發(fā)模糊的時代,我們能力和眼界的提升,可以做到從容的應對未來的種種變故。
那么同樣,隨之AI的發(fā)展,5G的到來,我們的很多工作方式都有可能被顛覆,語音交互設計的將會是一片藍海,雖然現(xiàn)在有諸多的桎梏,但這是趨勢,是快速崛起的趨勢。設計師工作你能想象未來沒有顯示器么?沒有臃腫的主機么?等等,未來都有可能會發(fā)生,而這一切也正在發(fā)生…..
無論世界如何變幻,未來可期,我們在路上…..
參考文獻:
- 《Designing Voice User Interfaces》(語音用戶界面設計)
- 《U一點料1/2》
- 《產品思維30講》-梁寧
作者:木七木七,歡迎交流~
本文由 @木七木七 原創(chuàng)發(fā)布于人人都是產品經理。未經許可,禁止轉載
題圖來自 Pixabay,基于 CC0 協(xié)議
學習了
特別感興趣,有幾個問題想請教一下:
1、AI的喚起,必須通過名字嗎?比如“天貓精靈,給我……”
2、如何在剛執(zhí)行完一個命令后,分辨用戶說話還是對AI的。比如用戶正好接聽一個電話的情況。
3、現(xiàn)在的智能音箱,是否開通了GPS定位?。勘热缣鞖忸A報、地點查詢等,是否有默認的條件?
4、多段對話中,有沒有一種機制,對用戶的關鍵詞進行逐步搜集,提升判斷的準確性呢?比如:1)給我播放信的歌;2)樂隊,不是歌手。
1.目前喚醒詞是比較好的解決方式
2.一般這種情況,對話很難繼續(xù),
3.有的
4.還是會涉及到置信度的問題,AI通過訓練和學習,是可以做到的。
感謝感謝!
錯誤異常的幾種情況:
未檢測到語音;
檢測到語音,但沒有識別;
檢測到語音,但沒有識別;
部分語音識別錯誤。
第三句“檢測到語音,但系統(tǒng)沒有反應