關(guān)于語音交互,你了解多少?
編輯導(dǎo)讀:隨著智能音箱、智能家居等智能硬件的普及,語音交互熱度也不斷飆升。本文從交互模式的發(fā)展出發(fā),梳理分析了語音交互的優(yōu)勢、存在的問題和設(shè)計要點,并展望了語音交互的未來發(fā)展,希望通過此文能夠加深你對語音交互的認(rèn)識。
隨著人工智能技術(shù)的發(fā)展,語音交互逐漸成為我們主流的交互方式之一,一方面是因為語音交互更加自然,一方面也得益于技術(shù)的發(fā)展。從智能音箱到智能手機,語音交互正在被大眾所接受。
一、交互模式的發(fā)展
自從工業(yè)革命以來,人機交互就逐漸進入人們的視野。
- 開始是傳統(tǒng)的按壓交互,一個機械按鍵,按下去以后機器會有相應(yīng)的反饋,就像現(xiàn)在手機的開機鍵。
- 然后就是鼠鍵交互,通過鼠標(biāo)+鍵盤這個組合,映射到可視的顯示器上,點擊來進行交互。
- 緊接著是觸控交互,觸摸屏的普及,人們開始習(xí)慣在屏幕上戳戳點點,這就是我們每天都在使用的觸摸交互。
- 一直到現(xiàn)在,在以上兩種交互的基礎(chǔ)之上,又衍生出了語音交互和手勢交互,這都是得益于大數(shù)據(jù)和人工智能的發(fā)展,這就是我們常用的智能音箱和手機助手。
- 未來最有可能被普及的就是意識交互,計算機可以識別人腦的想法,從而直接進行反饋,之前看的Facebook有一個輸入法就可以通過腦電波輸入,最近又有埃隆·馬斯克的腦機接口演示,感覺這一天離我們越來越近。
現(xiàn)在語音交互在技術(shù)上也越來越成熟,識別的準(zhǔn)確率和處理的效率越來越高,也已經(jīng)有了很多落地的產(chǎn)品,足以證明語音交互在現(xiàn)在的可行性。隨著5G和物聯(lián)網(wǎng)的普及,語音交互會有更大的應(yīng)用場景,讓所有的物體都會說話,真是一件不能再酷的事情了。
二、語音交互的優(yōu)缺點
從最開始的按壓交互,到現(xiàn)在的語音交互,中間經(jīng)歷了幾百年的時間,但是按壓交互依然沒有被完全替代,像手機上的音量按鍵,電腦上的鍵盤等,在我們身邊隨處可見。語音識別和自然語言處理技術(shù)這么成熟,為什么我們不能完全由語音控制呢?
這就要說到交互的基本原則,也就是什么樣子的交互設(shè)計用著爽:
- 簡單:盡可能的降低用戶的學(xué)習(xí)成本
- 精準(zhǔn):能夠準(zhǔn)確的完成我們想做的事情
- 自然:符合人體工程設(shè)計,看起來像一個正常人
我們先看鼠鍵交互和觸控交互,鼠鍵交互相比觸摸交互,最大的優(yōu)勢是精準(zhǔn),而簡單和自然就不如觸控交互了。觸摸是人類的天性,相比于鼠標(biāo)的映射更加簡單,學(xué)習(xí)成本低,操作起來也更自然,不用正襟危坐的在電腦前,隨時隨地都可以操作。這也是為什么手機的交互方式碾壓電腦的原因,但是電腦因為有更精準(zhǔn)的特點,也會一直存在。
沒有什么方式能夠比直接說話來的更簡單,更自然,更不需要學(xué)習(xí)成本,但是語音交互最大的問題是不夠精準(zhǔn)。首先是受環(huán)境的影響,導(dǎo)致語音識別的準(zhǔn)確率較低;再者就是表達(dá)一個意圖的說法千變?nèi)f化,更本無法覆蓋全;最后就是語音交互是一個開放域的事情,需要處理很多意外的情況。這里還沒有考慮有些場景不適合語音交互,比如會議場景,家人睡覺的時候等。
語音交互的優(yōu)點和他的缺點一樣突出,這也就導(dǎo)致語音交互最終無法取代其他的交互模式,多種交互模式會長期并存。所以我們需要結(jié)合實際場景,充分發(fā)揮語音交互的優(yōu)勢,而不是一味的追求語音交互。
三、如何設(shè)計語音交互?
由于技術(shù)的限制,語音交互的精確性不高,這也導(dǎo)致語音交互在未來很長一段時間里,不會成為唯一的交互方式,而是和多種交互模式并存,可能會處于一種輔助的狀態(tài)。
在設(shè)計語音交互的時候,可以按照三步進行梳理。
1. 確定交互場景
先要考慮當(dāng)前場景是否適合語音交互。適合語音交互的場景有以下幾個特點:
- 環(huán)境噪音少,或者噪音處于一個穩(wěn)定可控的狀態(tài);
- 使用環(huán)境私密,或者當(dāng)前環(huán)境交互沒有心理負(fù)擔(dān);
- 對指令下發(fā)失敗容忍度高,或者有補救的方案;
- 使用對象雙手被占用,或者距離操作按鈕很遠(yuǎn);
- 觸發(fā)的指令意圖簡短且明確。
根據(jù)以上特點,我們發(fā)現(xiàn)手機的智能助手滿足以上條件,因為手機的使用場景足夠豐富,幾乎覆蓋生活的方方面面,那么總會有場景完全適合語音交互,所以大家都在嘗試做自己的語音助手。我們常見智能音箱和車載助手,也完全符合。
2. 確定交互反饋
其次要考慮語音交互后的反饋,要能夠保證信息的準(zhǔn)確傳達(dá)。簡單可以把語音交互夫人反饋分為三種:
- 聽懂了的反饋;
- 沒聽懂的反饋;
- 異常狀態(tài)的反饋。
(1)聽懂了的反饋:這個比較好理解,相對比較容易設(shè)計。只要知道用戶所表達(dá)的意圖,我們就可以給出一個明確的反饋,一般會結(jié)合視覺和聽覺同時反饋給用戶,并執(zhí)行對應(yīng)的指令。
(2)沒聽懂的反饋:沒聽懂需要分層次,是完全沒聽懂,還是聽懂了一點,還是感覺聽懂了,但是不確認(rèn),這都算在沒有聽懂里面。如果是完全沒有聽懂,一般反饋內(nèi)容分為兩部分,一是表示沒聽懂,另外需要引導(dǎo)用戶說機器人會的內(nèi)容。比如“XXXXXXX”,沒有對應(yīng)的處理方案,對于機器人就是沒有聽懂,可以回復(fù)“這個我沒聽懂,您可以對我說’打開空調(diào)’?!?/p>
如果是聽懂了一點,只聽出一個關(guān)鍵詞,或者是說話的語氣,也可以做一些回復(fù)。比如“打開XX”,沒有聽清后面的設(shè)備,那么就可以回復(fù)“您想要打開什么設(shè)備呢?”,然后根據(jù)反饋再做多輪回復(fù)。
如果是聽懂了,但是不確認(rèn),就可以直接進行反問,讓用戶進行二次確認(rèn)。比如“打開空條”,感覺用戶是想要說“打開空調(diào)”,就可以直接反問“您是要打開空調(diào)嗎?”,然后根據(jù)反饋再做多輪回復(fù)。
(3)異常狀態(tài)的情況也有很多,但是我們?nèi)夹枰蟹答?。比如噪音、斷網(wǎng)等情況,要提示用戶當(dāng)前狀態(tài),避免用戶頻繁交互而沒有結(jié)果。
3. 確定交互關(guān)系
最后還要設(shè)定語音交互和其他交互方式的關(guān)系。往往一個設(shè)備不會只搭載一種交互方式,而是多種交互方式相結(jié)合。手機就是一個典型的多種交互方式結(jié)合的產(chǎn)物,所以要考慮語音和觸控之間的關(guān)系,比如是否要語音支持手機關(guān)機,語音指令是否支持打斷當(dāng)前任務(wù)等等。
做語音交互的產(chǎn)品,首先要明確是否適合語音交互,其次再分層次的解決語音交互中的反饋,最后設(shè)計清楚語音和其他交互的關(guān)系。
四、語音交互的未來
說到語音交互,很多人會說這是最符合人類的交互方式,因為我們感覺人和人之間都是語音交互。其實并不是這樣的,我們說話的時候,是帶有表情和動作的,我們把這種豐富的交互模式叫做多模態(tài)交互。
多模態(tài)交互才是語音交互的未來?,F(xiàn)在我們傳統(tǒng)的語音交互,只是簡單的獲取了用戶的文本信息,基于字面意識去做處理,高級一點的會利用上文聊過的信息,再往前一步,會根據(jù)用戶畫像做反饋。多模態(tài)交互不僅僅需要文本信息,同樣需要視覺,音頻等信息,然后根據(jù)不同的權(quán)重,作出合理的反饋。
其實在人與人對話的時候,除了字面意思外,還有很多隱藏的的信息,面對不同身份,不同關(guān)系的人,可能反饋的內(nèi)容都不一樣。所以需要給機器設(shè)定人設(shè),還要對用戶進行分類,有時候甚至需要做到千人千面。
語音交互相比于傳統(tǒng)的交互模式,更依賴于算法和數(shù)據(jù),所以語音交互的未來是需要技術(shù)突破的。
五、總結(jié)
我們生活中有多種多樣的交互方式,每一種交互方式都有它的優(yōu)缺點,所以很多傳統(tǒng)的交互方式會一直存在。而語音交互是最簡單,最自然的交互方式,但同樣也是精準(zhǔn)度最低的交互方式。這也就注定了語音交互將長期處于一個協(xié)助觸控交互的狀態(tài),不過有些精準(zhǔn)度要求不高的場景,也可以實現(xiàn)純語音交互。
未來語音交互繼續(xù)發(fā)展,將會進一步對人群進行分類,并結(jié)合多模態(tài)信息反饋。
本文由 @我叫人人 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議。
受教了