99麻豆久久精品一区二区,精品人妻一区二区三区日产乱码

搜索

APP

起點(diǎn)課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

一篇文章搞懂語音交互的來龍去脈

張小明明

2018-01-22

6 評論 14119 瀏覽 73 收藏

14 分鐘

文章對語音界面設(shè)計的一些知識展開分析解讀，希望能夠給你帶來啟發(fā)。

過去60年人工智能經(jīng)歷了兩次潮起潮落－新AI時代的頭十年和后十年，前十年是通過ai去解決行業(yè)問題，例如醫(yī)療教育，信貸和金融等，通過大數(shù)據(jù)和機(jī)器學(xué)習(xí)迅速提升效率與準(zhǔn)確率；新ai時代的后十年則升級到消費(fèi)產(chǎn)品和用戶生活場景（無人駕駛車，智能家居，家用機(jī)器人等領(lǐng)域），相對應(yīng)的我們的交互方式也必然會隨之更新。

在特定的場景下，例如無人駕駛，智能家居等，語音交互方式其實是最便捷的交互方式，語言是人類獨(dú)有的溝通方式，在未來的人工智能時代，必然會通過語音的交互徹底解放我們的雙手。我們現(xiàn)在正處于語音智能產(chǎn)品的爆發(fā)之際，我們需要一個專業(yè)而系統(tǒng)的歸納，來幫助我們在語音交互和智能硬件的道路上共同探索和學(xué)習(xí)。今天我們就來討論關(guān)于語音界面設(shè)計方面的一些知識，本文章觀點(diǎn)大部分來自入《語音用戶界面設(shè)計—對話式體驗設(shè)計原則》這本書，希望能夠?qū)Υ蠹矣袔椭?/p>

第一：語音界面簡史

20世紀(jì)90年代出現(xiàn)了交互模式的語音應(yīng)答，簡稱為ivr，它可以通過電話線路理解人們的話并且執(zhí)行認(rèn)為，一般都廣泛的應(yīng)用在運(yùn)營的客服方面，即使是現(xiàn)在三大運(yùn)營上的機(jī)器客服還是采用了這種語音應(yīng)答的方式。但是通過電話撥號的方式開始語音的問答還存在很多的缺點(diǎn)，例如只能應(yīng)用在單輪任務(wù)的問答，交互方式比較單一，不能進(jìn)行中途打斷等缺點(diǎn)。

第二個階段就是后期各大公司都出現(xiàn)了自己的語音助手，例如微軟的cortana，谷歌的Google OK和蘋果的Siri。這些語音助手集成了視覺和語音信息的app，可以同時使用語音和屏幕交互，是一種多模態(tài)的交互設(shè)計。發(fā)展到這個階段就有了多輪對話的可能性，但是如何對用戶的語音進(jìn)行理解就成為了語音交互的技術(shù)瓶頸了。

最近兩年，各大公司都出了自己的智能家居音箱，例如amzon echo和Google home這類的純語音設(shè)備。在未來的生活和工作場景中語音交互是一個新的入口，它提供了更靈活的交互方式，在未來的某一天人們必然會放棄屏幕和手勢的操作，可以通過語音進(jìn)行遠(yuǎn)距離的設(shè)備控制，這是各大公司搶占語音市場的原因。

第二：在語音界面的設(shè)計中，vui應(yīng)該注意什么？

首先我們先了解下什么是vui,其實它就是voice user interface的簡稱，在我個人看來，vui設(shè)計和普通的互聯(lián)網(wǎng)的設(shè)計沒有太多的不一樣，如果非要說區(qū)別的話，我個人認(rèn)為vui設(shè)計所接觸和涉及的范圍更廣。主要有下面幾個工作內(nèi)容：第一：進(jìn)行用戶研究，了解用戶是誰，需要思考用戶是誰以及在系統(tǒng)和終端之間從開始到結(jié)束的整個對話過程；第二，負(fù)責(zé)產(chǎn)品的原型設(shè)計和產(chǎn)品描述，描述系統(tǒng)與用戶之間的交互行為。第三，描述系統(tǒng)與用戶之間的交互行為并考慮需要處理的請求，通過分析數(shù)據(jù)來了解系統(tǒng)在什么地方發(fā)生了問題，最后進(jìn)行系統(tǒng)問題的排查和改進(jìn)。

另外，Vui設(shè)計師在設(shè)計一個產(chǎn)品的時候，需要考慮你的產(chǎn)品是什么類型的，他的主要功能是什么，是多模態(tài)產(chǎn)品還是純語音的硬件設(shè)備。在設(shè)計過程中可以通過示例對話的方式讓vui設(shè)計師真正的了解產(chǎn)品，知道用戶在和產(chǎn)品對話時會發(fā)生什么樣的情況。

第三：語音界面設(shè)計的常用規(guī)則有哪些？

1、命令－控制模式／對話模式

另外，在設(shè)計語音產(chǎn)品之前我們需要了解一些語音識別技術(shù)，從而讓你的vui系統(tǒng)得以創(chuàng)建，在系統(tǒng)對人的語音理解方面分為兩大類：asr：自動語言理解和nlu自然語言理解，目前的發(fā)展階段已經(jīng)到了自然語言理解的階段。機(jī)器通過處理和理解文本，采用云處理的方式對用戶語音進(jìn)行識別和理解從而判斷指令給出正確的反饋。

一般的vui系統(tǒng)在對話模式上可以分為：命令－控制模式／對話模式，語音指令模式下用戶在說話前必須要給系統(tǒng)明確的指示。目前大多數(shù)的vui系統(tǒng)都是采用這種模式。例如：Siri要求用戶在說話前必須先按下主屏幕或者在Siri頁面按下麥克風(fēng)圖標(biāo)。

對話模式情況下當(dāng)出現(xiàn)較長的對話時，沒有必然讓用戶在說話前總是告訴系統(tǒng)用戶要開始說話了，當(dāng)然這是建立在用戶大致知道對話模式已經(jīng)改變的情況下才會這么做，一般來說一個語音系統(tǒng)都會有命令控制模式和對話模式的切換。

在視覺的表現(xiàn)上兩者都需要有明確的物理圖標(biāo)和明確的喚醒詞語，在對話模式中輪流對話更為自然，在視覺上需要有明確的開始和結(jié)束的封閉式對話標(biāo)示。

2、確認(rèn)策略

所有優(yōu)秀的vui設(shè)計，都必須確保用戶感覺到自己是被理解的，所以我們需要在設(shè)計原則中添加一個確認(rèn)策略。確認(rèn)策略的設(shè)計是因為在很多環(huán)境下機(jī)器并不能完全的識別用戶所說的問題，同時在生活場景下，例如購物支付等場景，需要用戶的再次確認(rèn)，這個時候vui的確認(rèn)策略就派上用場了。

在設(shè)計確認(rèn)策略的過程中我們需要了解幾個問題：交互問答的錯誤后果是什么？系統(tǒng)需要什么樣的方式怎么反饋？屏幕需要顯示出什么？用戶需要用什么樣的手段進(jìn)行確認(rèn)等。

在確認(rèn)的形式上可以分為兩大類：顯性確認(rèn)和隱性確認(rèn)，顯性確認(rèn)即強(qiáng)制用戶確認(rèn)信息，例如：判斷是否確認(rèn)支付，這一類型的產(chǎn)生的后果還是挺嚴(yán)重的，需要強(qiáng)制用戶確認(rèn)信息，此時用戶只需要回答是或者否即可。

隱形確認(rèn)通常采用的方法有下面幾種：三級置信度／隱性確認(rèn)／非語言式確認(rèn)／通用確認(rèn)／視覺確認(rèn)。

這種方法系統(tǒng)通過對不同閾值的判斷，給出不同的信息確認(rèn)，一般情況下分為三種閾值情況，因此也就是三級置信度的設(shè)計。對于移動設(shè)備，視覺確認(rèn)是一種常用的方法，一般情況下系統(tǒng)會同時提供音頻和視覺確認(rèn)。在多模態(tài)的設(shè)計中，屏幕上可以出現(xiàn)可視化的列表。比如我們的語音助手，用戶說打開或者關(guān)閉語音助手，那么相應(yīng)的麥克風(fēng)圖標(biāo)會有消失和出現(xiàn)的動效。答案連同原始的問題一起回復(fù)Siri通過視覺上的可視化列表和語言上的隱性確認(rèn)來回復(fù)我的問題。

非語言的確認(rèn)方式也就是行動反饋，不需要口頭進(jìn)行確認(rèn)，例如假如正在創(chuàng)建一個語音控制燈光的系統(tǒng)，當(dāng)你說打開燈光的時候，燈自然就會打開，此時已經(jīng)給了你一個反饋，不需要進(jìn)行語音進(jìn)行提示了。在純語音設(shè)備或者系統(tǒng)下，可以提供一個行為反饋，例如光效等。

Vui系統(tǒng)在說話的時候，確認(rèn)用戶是否可以打斷，現(xiàn)在一般的語音智能聽到喚醒詞才會停止說話，喚醒詞應(yīng)在本地處理，設(shè)備一直處于接收喚醒詞的狀態(tài)。多模態(tài)形式下，一般是不可以打斷的，可以用可視化列表，如Siri不可以打斷對話。

3、異常情況處理

異常情況處理在語音識別和指令的場景下異常情況極為普遍，例如：未檢測到語音，語音終止超時和無語音超時；檢測到語音但是沒有識別出來；正確識別但是系統(tǒng)無法處理；部分語音識別錯誤等異常情況，不同的異常情況也對應(yīng)不同的異常情況的處理方式，具體的方法看下圖：

在這種情況下系統(tǒng)留給用戶說話和思考的時間，某些場景下可以調(diào)整時間和靈活度。例如開始啟動siri時，是用戶主動的一個行為，用戶不需要進(jìn)行思考；然后當(dāng)系統(tǒng)問用戶某一問題時，需要用戶思考，那么這個時候需要的時間就不一樣了。

當(dāng)用戶喚醒了vui系統(tǒng)，無語音超時發(fā)生的情況有幾種：用戶沒有說話或者是用戶說話聲音小。這個時候需要提供一個視覺上的一個退出按鈕。這種幫助類似于我們在填寫表單時，視覺的框里會告訴我們應(yīng)該用什么格式填寫。

這個可能與語音識別技術(shù)相關(guān)聯(lián)在一起了。比如說我們的語音助手，用戶說打開word，系統(tǒng)列出：打開word／打開我的／打開臥底等等。

第四：語音的發(fā)展趨勢

例如上下文語意的理解，當(dāng)然我們對siri說我想吃漢堡它列出了幾個附近的餐館，當(dāng)用戶說好膩，不吃了，這個時候就需要系統(tǒng)理解上下文的語境從而給出正確的判斷。

在消除歧義方面，當(dāng)系統(tǒng)問用戶，你的主要癥狀是什么？而用戶說的是發(fā)燒和感冒，系統(tǒng)就要理解用戶說的是兩個癥狀，針對這個事情，系統(tǒng)需要進(jìn)行回復(fù)兩種不同的癥狀解決方式。

情感和情緒分析則需要機(jī)器進(jìn)入強(qiáng)人工智能了，讓機(jī)器理解人的情緒和情感從而給出對應(yīng)的有情感的回答，不在是冷冰冰的機(jī)器，這永遠(yuǎn)是一個未來的發(fā)展方向。

對于高級自然語言的理解目前還處于初級階段，目前，Siri和cortana出發(fā)處理問題的時候，會提供一個網(wǎng)頁搜索，并不會直接回答你的問題，但高級自然語言理解可以聽懂你說的話，直接回答。

本文由 @張小明明原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自unsplash，基于CC0協(xié)議

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

語音交互設(shè)計怎么做？文章被收錄于該專欄

共 26 篇文章38892 人已學(xué)習(xí)

張小明明

公眾號「產(chǎn)品Doggy」免費(fèi)送10G產(chǎn)品干貨～

7篇作品 85827總閱讀量

小紅書投流錢花不出去？所屬類目可合作的博主特別少？如何解決這2大問題！

10-103096 瀏覽

?315晚，直播帶貨徹夜難眠

03-161052 瀏覽

微信更新安卓8.0.43版本，最后1個功能絕了

11-083949 瀏覽

如何在訪談中提升用戶投入度

06-072295 瀏覽

體驗日常：“初次與復(fù)購客戶體驗”的比較與反思

12-082238 瀏覽

評論

紅旗.

寫的蠻好的，之前對語音這里了解不多，十分感謝

最近來自北京回復(fù)
1. 張小明明作者回復(fù)紅旗.
  
  我也是看書做了下總結(jié)而已，拿來主義
  
  最近來自安徽回復(fù)
VINCENT

同求

最近回復(fù)
李沐紫

你好~ 可以推薦一些語音交互的書籍嗎？

最近來自廣東回復(fù)
1. 張小明明作者回復(fù)李沐紫
  
  《語音用戶界面設(shè)計：對話式體驗設(shè)計原則》，這本書比較系統(tǒng)，相信一定對你有所幫助
  
  最近來自安徽回復(fù)