關(guān)于智能語音交互的5點(diǎn)思考

4 評(píng)論 23965 瀏覽 84 收藏 16 分鐘

本文是我在學(xué)習(xí)智能語音過程中的思考,希望從智能語音的人機(jī)交互層面給大家?guī)硪恍﹩l(fā)。

小時(shí)候很喜歡一部劇叫《恐龍戰(zhàn)隊(duì)》,里面有個(gè)角色叫“阿爾法”,是個(gè)每天忙來忙去的機(jī)器人,能傳喚隊(duì)員并和他們交流,令我很好奇。

今天,我們對(duì)于能對(duì)話的機(jī)器已經(jīng)不那么新奇了,這得益于智能語音技術(shù)的發(fā)展和一些語音產(chǎn)品的出現(xiàn)。一度調(diào)戲Siri成為全民話題,這肯定不是Apple公司初衷。這暴露了它的不完善,也讓大眾離語音產(chǎn)品更近了。本文是我在學(xué)習(xí)智能語音過程中的思考,希望從智能語音的人機(jī)交互層面給大家?guī)硪恍﹩l(fā)。

語言是人類文明的重要成果,也是人類最重要的工具之一,它為保存和傳遞人類文明起到了不可或缺的作用。概括來說它的主要作用就4個(gè)字:傳遞信息

“而我們所說的智能語音,學(xué)術(shù)界叫“自然語言處理”,是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域的一個(gè)研究方向,主要研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效傳遞信息的理論和方法?!园俣?”

“交互”一詞全名是“人機(jī)交互”,是一門研究系統(tǒng)與用戶之間交流、互動(dòng)關(guān)系的學(xué)問。

智能語音交互嚴(yán)謹(jǐn)點(diǎn)說應(yīng)該是自然語言交互(natura language interaction),為了方便理解我依然采用“智能語音交互”這個(gè)詞。

計(jì)算機(jī)技術(shù)及人工智能領(lǐng)域發(fā)展迅速,對(duì)“自然語言處理”的研究也異常火熱。

siri、微軟小冰、google now、Echo、科大訊飛、京東叮咚、出門問問等智能語音類產(chǎn)品開始出現(xiàn),雖然存在很大的不完善,但回望歷史我們能發(fā)現(xiàn)智能語音技術(shù)一直是在進(jìn)步的。

在了解智能語音的過程中,我產(chǎn)生了一些問題,圍繞這些問題我對(duì)智能語音交互進(jìn)行了一些思考,希望能給你帶來一些啟發(fā)。

?1、智能語音能成為人類主流的人機(jī)交互方式嗎?

這個(gè)問題在知乎引起了很大的爭論,而我傾向于智能語音交互會(huì)成為人類主流的人機(jī)交互方式之一。

人類與世界萬物的交互過程大概是這樣的:通過眼睛去觀察人、事、物、環(huán)境等,再輔以耳朵聽、鼻子聞、舌頭嘗、嘴巴交流、肢體觸碰,而后大腦產(chǎn)生記憶和思考并做出動(dòng)作、表情、語言和生理反饋,這個(gè)過程是循環(huán)和組合的。

不同的環(huán)境和習(xí)慣會(huì)有不同,但基本是在這個(gè)范圍。 這個(gè)過程中,前半部分主要是接收信息,后半部分主要負(fù)責(zé)交流互動(dòng),而語言和動(dòng)作是最主要的交流互動(dòng)方式。

人機(jī)交互角度看,用手操控是這個(gè)世界絕對(duì)的主流

我們每天使用的手機(jī)、電腦、相機(jī)、汽車,包括現(xiàn)在很火的AR、VR設(shè)備,基本上都要靠手去操控。(用手操控屬于動(dòng)作這個(gè)范疇)這跟人類的進(jìn)化方式有很大關(guān)系,我們的祖先從學(xué)會(huì)制作工具開始,手就成為了人類接觸萬物的最主要工具。

尤其是機(jī)械的出現(xiàn),只有人類靈巧的雙手才能精準(zhǔn)的操控完成任務(wù)。

可是人的手有幾個(gè)缺陷:不夠長,不夠多,需要配合眼睛,這給我們的生活帶來了很多不便。

舉個(gè)例子:

當(dāng)我們?cè)陂_車時(shí),眼睛和手被占用,再去操作手機(jī)、中控觸屏等設(shè)備會(huì)非常不便,危險(xiǎn)系數(shù)也會(huì)大大增加。

原本語言是人與人之間交流的工具,很難像雙手一樣直接與物體產(chǎn)生反應(yīng)。 但是隨著公認(rèn)的第四次工業(yè)革命的到來,人工智能讓我們有了更多可能,當(dāng)機(jī)器能聽懂我們的意思并很好的執(zhí)行時(shí),很多場(chǎng)景的人機(jī)交互方式將會(huì)被改變,更多適合的場(chǎng)景將會(huì)被挖掘出來,就像當(dāng)年智能手機(jī)進(jìn)入我們的生活。10年前,我們是無法想象通過手機(jī)做現(xiàn)在的大多數(shù)事情的。

所以我的淺見是:

智能語音技術(shù)會(huì)成為人類主流的人機(jī)交互方式之一。

成為之一,是因?yàn)槌苏Z音外,原本的手的操作、體感操作、面部表情識(shí)別、注意力識(shí)別、甚至是情緒的波動(dòng),都可能在不同場(chǎng)景成為我們與機(jī)器的交互方式,未來這很可能是綜合的交互體驗(yàn)。

?2、智能語音技術(shù)發(fā)展到什么階段了?

智能語音分近場(chǎng)語音和遠(yuǎn)場(chǎng)語音。

“近場(chǎng)的定義是小于1個(gè)波長的范圍內(nèi)(或者波長量級(jí))的電磁場(chǎng)。而遠(yuǎn)場(chǎng)是電磁波傳播到遠(yuǎn)處之后的場(chǎng)(分布)?!园俣取?/p>

近場(chǎng)語音主要是基于手機(jī)等設(shè)備,基本上是一些輔助的使用需求,Siri和微軟小冰就是近場(chǎng)語音產(chǎn)品。遠(yuǎn)場(chǎng)語音也越來越受重視,亞馬遜的Echo就是遠(yuǎn)場(chǎng)語音,很受歡迎,至少用戶能在5米外的距離語音指示它播放音樂。

自然語言理解方面的研究已經(jīng)60多年了,雖然還不完善,但令人欣喜的是類似Siri、Echo這樣的產(chǎn)品不斷涌現(xiàn),而不再是虛無縹緲的概念。

簡單了解下自然語音處理的技術(shù)過程:

當(dāng)我們與機(jī)器進(jìn)行語音交互時(shí),機(jī)器需要通過聲學(xué)處理我們的聲音和周圍環(huán)境,減少干擾和噪音。再通過語音識(shí)別技術(shù)將聽到的聲音翻譯成文字,語義理解技術(shù)則會(huì)分析這些文字的意義,最后機(jī)器去執(zhí)行用戶的指令或者通過語音合成技術(shù)把要表達(dá)的內(nèi)容合成語音。

在此過程,聲學(xué)處理、語音識(shí)別、語義理解等屬于自然語言理解,語音合成等是自然語言生成,這些都是非常核心的技術(shù),還要配合人工智能、機(jī)器深度學(xué)習(xí)等等。

但是現(xiàn)階段依然困難重重。

真實(shí)環(huán)境下,受噪音等影響機(jī)器仍然聽不準(zhǔn)自然語言。機(jī)器將聽到的語音翻譯成文字時(shí),重音、口音模糊、語法模糊等又很影響成功率。人類語言太復(fù)雜,受到單詞邊界模糊、多義詞、句法模糊、上下文理解等影響,語義理解又是一大障礙。

再舉個(gè)例子:

如果一門課程上一年沒開設(shè),對(duì)于“這門課程去年有多少同學(xué)沒通過”這樣的問題,機(jī)器是回答“都沒通過”還是“去年沒開這門課”?同時(shí)機(jī)器還需要提前存儲(chǔ)“去年沒開這門課”的信息。

想想我們從小時(shí)候啥也不懂到現(xiàn)在懂得的知識(shí)和信息,這是難以想象的數(shù)據(jù)量!所以現(xiàn)階段來看,在某垂直領(lǐng)域開發(fā)智能語音產(chǎn)品是相對(duì)現(xiàn)實(shí)的選擇。

?3、智能語音交互與界面交互的異同點(diǎn)是什么?

研究智能語音與機(jī)器的交互,不得不說界面交互,這是使用者和設(shè)計(jì)者都非常熟悉的人機(jī)交互方式。從界面交互出發(fā),其實(shí)有很多可思考的或借鑒的點(diǎn)。

界面交互是線性的,而語音交互是非線性的?

界面交互是一種線性的交互方式,本質(zhì)上是不同的頁面通過不同的層級(jí)關(guān)系串聯(lián)起來的。所以,我們?cè)谑褂玫臅r(shí)候會(huì)有一層層返回,tab導(dǎo)航切換,回到app首頁和home鍵回到手機(jī)桌面的概念。

語音交互不適合這樣做,我們?nèi)祟愒谡Z言交流時(shí),是一種非線性發(fā)散式的,我們會(huì)在聊某個(gè)話題時(shí)突然切換到另外一個(gè)不相關(guān)的話題上,這之間沒有層級(jí)關(guān)系,更談不上返回關(guān)系。

界面交互更多過程,語音交互直接指向結(jié)果?

界面交互在設(shè)計(jì)的時(shí)候,是將很多“小任務(wù)”(按鈕點(diǎn)擊、模塊選擇、頁面跳轉(zhuǎn)等等)提供給用戶,用戶通過不同的組合選擇,最終達(dá)成自己的目標(biāo)。

但是在語音交互時(shí),更多是直接表達(dá),你會(huì)跟服務(wù)員說:請(qǐng)給我一杯咖啡。而不會(huì)說:請(qǐng)用杯子從咖啡壺里倒一杯咖啡給我。

界面交互可以沒有目標(biāo),語音交互需要準(zhǔn)確的目標(biāo)?

我們?cè)谑褂秒娔X和手機(jī)上網(wǎng)時(shí),有時(shí)候是漫無目的,但在語音交互產(chǎn)品上如果漫無目的的進(jìn)行下去,會(huì)讓人很煩躁,因?yàn)槟愕貌煌5卣f下去。

語音交互的私密性更強(qiáng),沒有界面交互覆蓋的使用場(chǎng)景多

當(dāng)我們?cè)谝粋€(gè)人多的場(chǎng)合可以毫無顧忌的使用手機(jī)和ipad,但若跟機(jī)器進(jìn)行語音對(duì)話,就會(huì)令人很尷尬。再例如,在ATM機(jī)上取款時(shí)你會(huì)使用語音嗎??

所以在一些使用語音交互效率高的場(chǎng)景,如何避免這樣尷尬的情緒很重要。而另一些更私密的場(chǎng)景語音交互可能是個(gè)災(zāi)難。

4、智能語音交互適合哪些使用場(chǎng)景?

任何一款產(chǎn)品不管是什么樣的交互方式,沒有使用場(chǎng)景,滿足不了用戶需求,一定是無法成功的。智能語音類產(chǎn)品也不例外,并且從現(xiàn)階段的技術(shù)上來看,垂直一些的使用場(chǎng)景更適合用智能語音交互。

  1. 汽車的車載智能語音系統(tǒng),已經(jīng)有很多商業(yè)產(chǎn)品了。是不是可以在挖掘出其他出行場(chǎng)景呢?比如騎車時(shí)?
  2. 兒童娛樂和教育也是適合語音交互切入的行業(yè),也有很多公司在做。
  3. 智能語音類產(chǎn)品還可以應(yīng)用于客服行業(yè),可以極大的程度降低人員成本,也可以解決語音客服體驗(yàn)差效率低的問題。

人工客服和非智能語音客服場(chǎng)景的痛點(diǎn)

如果應(yīng)用智能語音系統(tǒng)呢?理想的情況跟人工客服沒有區(qū)別,但是全部由機(jī)器完成,想想看節(jié)省了多少人力成本。甚至線下的客服工作也可以替代。

4似智能語音助理這樣的產(chǎn)品,幫用戶處理一些短路徑目的明確的任務(wù)需求。

還有辦公領(lǐng)域、智能家居等等……

5、如何設(shè)計(jì)使用體驗(yàn)好的智能語音產(chǎn)品?

不管是界面產(chǎn)品還是語音產(chǎn)品,最終目的都是解決人們的問題。界面產(chǎn)品設(shè)計(jì)的部分標(biāo)準(zhǔn)和經(jīng)驗(yàn)依然適用。

比如設(shè)計(jì)流程上,同樣需要理解業(yè)務(wù)訴求、用戶訴求,要進(jìn)行用戶調(diào)研、分析用戶特征和觀察用戶行為,要挖掘使用場(chǎng)景中的問題和痛點(diǎn),要梳理任務(wù)流程、設(shè)計(jì)信息架構(gòu)和方案設(shè)計(jì),并且要去驗(yàn)證和迭代。

而語音交互過程中還需要注意以下問題:

流程簡單,路徑明確,最大限度減少對(duì)話輪數(shù)。

語音交互應(yīng)該避免不停的對(duì)話,太多輪對(duì)話用戶難以記住,并且會(huì)很煩躁。

信息傳達(dá)簡潔明了,避免大量內(nèi)容。

用戶的短期記憶量有限,信息太多用戶難以記住。

給予用戶適當(dāng)?shù)囊龑?dǎo),避免或及時(shí)糾正用戶發(fā)散式思維導(dǎo)致的錯(cuò)誤。

用戶的語言表達(dá)是自由度非常高的,這會(huì)增加機(jī)器識(shí)別的難度,適當(dāng)?shù)囊龑?dǎo)讓用戶回到正確的道路。

系統(tǒng)狀態(tài)反饋,及時(shí)有效。

語音交互中的系統(tǒng)狀態(tài)反饋,要讓用戶及時(shí)了解當(dāng)前狀態(tài),上下文關(guān)系,用戶所處流程的位置。

任何時(shí)刻都是“首頁”。

語音交互對(duì)用戶來說是快捷方式,有需求會(huì)直接說,而不會(huì)像界面產(chǎn)品先要回到首頁再去找相應(yīng)應(yīng)用。

加載過程要快。

在界面交互中頁面加載3秒以內(nèi),配合狀態(tài)反饋,用戶是可以接受的。而語音交互用戶會(huì)更不耐心等待,所以加載過程要快,就像人與人之間對(duì)話一樣自然,才會(huì)令用戶滿意。

固定的、舒適的聲音風(fēng)格,令用戶愉悅。

固定的音樂、鈴聲,給用戶形成印象,讓人一聽見就知道是什么產(chǎn)品。例如微信、iphone鈴聲、新聞聯(lián)播片頭曲。動(dòng)聽、令人愉悅的聲音、音樂、鈴聲很重要,是產(chǎn)品氣質(zhì)的表現(xiàn)。

與機(jī)器的語音交流如何像人類一樣自然?

這是最后的疑問,我還沒有答案。機(jī)器的語音交流,不像人類一樣自然永遠(yuǎn)是最大問題,因?yàn)橹挥腥伺c人之間交流才是最自然和舒適的。如何讓機(jī)器學(xué)習(xí)和模仿人類,使它慢慢的向自然人“進(jìn)化”?

以上僅是分析和思考,并未經(jīng)過實(shí)踐驗(yàn)證,只希望給大家?guī)韱l(fā)。

 

本文由 @Wayne 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自PEXELS,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 自然語言交互和智能語音交互,后者包括前者。語音交互,不只是自然語言,還有聲學(xué)上的聲紋等。智能語音交互的智能,不只包括NLU,還有推理,決策判斷等,而且輸出也不一定是語言。

    回復(fù)
    1. 回答的通熟易懂,點(diǎn)個(gè)贊!

      來自浙江 回復(fù)
    2. ?? 受教了。
      一個(gè)外行,還需要學(xué)習(xí)。。。

      來自江蘇 回復(fù)