I99久久精品国产,丝袜a∨在线一区二区三区不卡,99久久毛片无码一区二区三区

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

關(guān)于智能語音交互的5點(diǎn)思考

Wayne

2017-11-07

4 評(píng)論 23965 瀏覽 84 收藏

16 分鐘

本文是我在學(xué)習(xí)智能語音過程中的思考，希望從智能語音的人機(jī)交互層面給大家?guī)硪恍﹩l(fā)。

小時(shí)候很喜歡一部劇叫《恐龍戰(zhàn)隊(duì)》，里面有個(gè)角色叫“阿爾法”，是個(gè)每天忙來忙去的機(jī)器人，能傳喚隊(duì)員并和他們交流，令我很好奇。

今天，我們對(duì)于能對(duì)話的機(jī)器已經(jīng)不那么新奇了，這得益于智能語音技術(shù)的發(fā)展和一些語音產(chǎn)品的出現(xiàn)。一度調(diào)戲Siri成為全民話題，這肯定不是Apple公司初衷。這暴露了它的不完善，也讓大眾離語音產(chǎn)品更近了。本文是我在學(xué)習(xí)智能語音過程中的思考，希望從智能語音的人機(jī)交互層面給大家?guī)硪恍﹩l(fā)。

語言是人類文明的重要成果，也是人類最重要的工具之一，它為保存和傳遞人類文明起到了不可或缺的作用。概括來說它的主要作用就4個(gè)字：傳遞信息。

“而我們所說的智能語音，學(xué)術(shù)界叫“自然語言處理”，是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域的一個(gè)研究方向，主要研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效傳遞信息的理論和方法?！园俣?”

“交互”一詞全名是“人機(jī)交互”，是一門研究系統(tǒng)與用戶之間交流、互動(dòng)關(guān)系的學(xué)問。

智能語音交互嚴(yán)謹(jǐn)點(diǎn)說應(yīng)該是自然語言交互(natura language interaction)，為了方便理解我依然采用“智能語音交互”這個(gè)詞。

計(jì)算機(jī)技術(shù)及人工智能領(lǐng)域發(fā)展迅速，對(duì)“自然語言處理”的研究也異常火熱。

siri、微軟小冰、google now、Echo、科大訊飛、京東叮咚、出門問問等智能語音類產(chǎn)品開始出現(xiàn)，雖然存在很大的不完善，但回望歷史我們能發(fā)現(xiàn)智能語音技術(shù)一直是在進(jìn)步的。

在了解智能語音的過程中，我產(chǎn)生了一些問題，圍繞這些問題我對(duì)智能語音交互進(jìn)行了一些思考，希望能給你帶來一些啟發(fā)。

?1、智能語音能成為人類主流的人機(jī)交互方式嗎？

這個(gè)問題在知乎引起了很大的爭論，而我傾向于智能語音交互會(huì)成為人類主流的人機(jī)交互方式之一。

人類與世界萬物的交互過程大概是這樣的：通過眼睛去觀察人、事、物、環(huán)境等，再輔以耳朵聽、鼻子聞、舌頭嘗、嘴巴交流、肢體觸碰，而后大腦產(chǎn)生記憶和思考并做出動(dòng)作、表情、語言和生理反饋，這個(gè)過程是循環(huán)和組合的。

不同的環(huán)境和習(xí)慣會(huì)有不同，但基本是在這個(gè)范圍。這個(gè)過程中，前半部分主要是接收信息，后半部分主要負(fù)責(zé)交流互動(dòng)，而語言和動(dòng)作是最主要的交流互動(dòng)方式。

人機(jī)交互角度看，用手操控是這個(gè)世界絕對(duì)的主流

我們每天使用的手機(jī)、電腦、相機(jī)、汽車，包括現(xiàn)在很火的AR、VR設(shè)備，基本上都要靠手去操控。（用手操控屬于動(dòng)作這個(gè)范疇）這跟人類的進(jìn)化方式有很大關(guān)系，我們的祖先從學(xué)會(huì)制作工具開始，手就成為了人類接觸萬物的最主要工具。

尤其是機(jī)械的出現(xiàn)，只有人類靈巧的雙手才能精準(zhǔn)的操控完成任務(wù)。

可是人的手有幾個(gè)缺陷：不夠長，不夠多，需要配合眼睛，這給我們的生活帶來了很多不便。

舉個(gè)例子：

當(dāng)我們?cè)陂_車時(shí)，眼睛和手被占用，再去操作手機(jī)、中控觸屏等設(shè)備會(huì)非常不便，危險(xiǎn)系數(shù)也會(huì)大大增加。

原本語言是人與人之間交流的工具，很難像雙手一樣直接與物體產(chǎn)生反應(yīng)。但是隨著公認(rèn)的第四次工業(yè)革命的到來，人工智能讓我們有了更多可能，當(dāng)機(jī)器能聽懂我們的意思并很好的執(zhí)行時(shí)，很多場(chǎng)景的人機(jī)交互方式將會(huì)被改變，更多適合的場(chǎng)景將會(huì)被挖掘出來，就像當(dāng)年智能手機(jī)進(jìn)入我們的生活。10年前，我們是無法想象通過手機(jī)做現(xiàn)在的大多數(shù)事情的。

所以我的淺見是：

智能語音技術(shù)會(huì)成為人類主流的人機(jī)交互方式之一。

成為之一，是因?yàn)槌苏Z音外，原本的手的操作、體感操作、面部表情識(shí)別、注意力識(shí)別、甚至是情緒的波動(dòng)，都可能在不同場(chǎng)景成為我們與機(jī)器的交互方式，未來這很可能是綜合的交互體驗(yàn)。

?2、智能語音技術(shù)發(fā)展到什么階段了？

智能語音分近場(chǎng)語音和遠(yuǎn)場(chǎng)語音。

“近場(chǎng)的定義是小于1個(gè)波長的范圍內(nèi)（或者波長量級(jí)）的電磁場(chǎng)。而遠(yuǎn)場(chǎng)是電磁波傳播到遠(yuǎn)處之后的場(chǎng)（分布）?！园俣取?/p>

近場(chǎng)語音主要是基于手機(jī)等設(shè)備，基本上是一些輔助的使用需求，Siri和微軟小冰就是近場(chǎng)語音產(chǎn)品。遠(yuǎn)場(chǎng)語音也越來越受重視，亞馬遜的Echo就是遠(yuǎn)場(chǎng)語音，很受歡迎，至少用戶能在5米外的距離語音指示它播放音樂。

自然語言理解方面的研究已經(jīng)60多年了，雖然還不完善，但令人欣喜的是類似Siri、Echo這樣的產(chǎn)品不斷涌現(xiàn)，而不再是虛無縹緲的概念。

簡單了解下自然語音處理的技術(shù)過程：

當(dāng)我們與機(jī)器進(jìn)行語音交互時(shí)，機(jī)器需要通過聲學(xué)處理我們的聲音和周圍環(huán)境，減少干擾和噪音。再通過語音識(shí)別技術(shù)將聽到的聲音翻譯成文字，語義理解技術(shù)則會(huì)分析這些文字的意義，最后機(jī)器去執(zhí)行用戶的指令或者通過語音合成技術(shù)把要表達(dá)的內(nèi)容合成語音。

在此過程，聲學(xué)處理、語音識(shí)別、語義理解等屬于自然語言理解，語音合成等是自然語言生成，這些都是非常核心的技術(shù)，還要配合人工智能、機(jī)器深度學(xué)習(xí)等等。

但是現(xiàn)階段依然困難重重。

真實(shí)環(huán)境下，受噪音等影響機(jī)器仍然聽不準(zhǔn)自然語言。機(jī)器將聽到的語音翻譯成文字時(shí)，重音、口音模糊、語法模糊等又很影響成功率。人類語言太復(fù)雜，受到單詞邊界模糊、多義詞、句法模糊、上下文理解等影響，語義理解又是一大障礙。

再舉個(gè)例子：

如果一門課程上一年沒開設(shè)，對(duì)于“這門課程去年有多少同學(xué)沒通過”這樣的問題，機(jī)器是回答“都沒通過”還是“去年沒開這門課”？同時(shí)機(jī)器還需要提前存儲(chǔ)“去年沒開這門課”的信息。

想想我們從小時(shí)候啥也不懂到現(xiàn)在懂得的知識(shí)和信息，這是難以想象的數(shù)據(jù)量！所以現(xiàn)階段來看，在某垂直領(lǐng)域開發(fā)智能語音產(chǎn)品是相對(duì)現(xiàn)實(shí)的選擇。

?3、智能語音交互與界面交互的異同點(diǎn)是什么？

研究智能語音與機(jī)器的交互，不得不說界面交互，這是使用者和設(shè)計(jì)者都非常熟悉的人機(jī)交互方式。從界面交互出發(fā)，其實(shí)有很多可思考的或借鑒的點(diǎn)。

界面交互是線性的，而語音交互是非線性的?

界面交互是一種線性的交互方式，本質(zhì)上是不同的頁面通過不同的層級(jí)關(guān)系串聯(lián)起來的。所以，我們?cè)谑褂玫臅r(shí)候會(huì)有一層層返回，tab導(dǎo)航切換，回到app首頁和home鍵回到手機(jī)桌面的概念。

語音交互不適合這樣做，我們?nèi)祟愒谡Z言交流時(shí)，是一種非線性發(fā)散式的，我們會(huì)在聊某個(gè)話題時(shí)突然切換到另外一個(gè)不相關(guān)的話題上，這之間沒有層級(jí)關(guān)系，更談不上返回關(guān)系。

界面交互更多過程，語音交互直接指向結(jié)果?

界面交互在設(shè)計(jì)的時(shí)候，是將很多“小任務(wù)”（按鈕點(diǎn)擊、模塊選擇、頁面跳轉(zhuǎn)等等）提供給用戶，用戶通過不同的組合選擇，最終達(dá)成自己的目標(biāo)。

但是在語音交互時(shí)，更多是直接表達(dá)，你會(huì)跟服務(wù)員說：請(qǐng)給我一杯咖啡。而不會(huì)說：請(qǐng)用杯子從咖啡壺里倒一杯咖啡給我。

界面交互可以沒有目標(biāo)，語音交互需要準(zhǔn)確的目標(biāo)?

我們?cè)谑褂秒娔X和手機(jī)上網(wǎng)時(shí)，有時(shí)候是漫無目的，但在語音交互產(chǎn)品上如果漫無目的的進(jìn)行下去，會(huì)讓人很煩躁，因?yàn)槟愕貌煌５卣f下去。

語音交互的私密性更強(qiáng)，沒有界面交互覆蓋的使用場(chǎng)景多

當(dāng)我們?cè)谝粋€(gè)人多的場(chǎng)合可以毫無顧忌的使用手機(jī)和ipad，但若跟機(jī)器進(jìn)行語音對(duì)話，就會(huì)令人很尷尬。再例如，在ATM機(jī)上取款時(shí)你會(huì)使用語音嗎？？

所以在一些使用語音交互效率高的場(chǎng)景，如何避免這樣尷尬的情緒很重要。而另一些更私密的場(chǎng)景語音交互可能是個(gè)災(zāi)難。

4、智能語音交互適合哪些使用場(chǎng)景？

任何一款產(chǎn)品不管是什么樣的交互方式，沒有使用場(chǎng)景，滿足不了用戶需求，一定是無法成功的。智能語音類產(chǎn)品也不例外，并且從現(xiàn)階段的技術(shù)上來看，垂直一些的使用場(chǎng)景更適合用智能語音交互。

汽車的車載智能語音系統(tǒng)，已經(jīng)有很多商業(yè)產(chǎn)品了。是不是可以在挖掘出其他出行場(chǎng)景呢？比如騎車時(shí)？
兒童娛樂和教育也是適合語音交互切入的行業(yè)，也有很多公司在做。
智能語音類產(chǎn)品還可以應(yīng)用于客服行業(yè)，可以極大的程度降低人員成本，也可以解決語音客服體驗(yàn)差效率低的問題。

人工客服和非智能語音客服場(chǎng)景的痛點(diǎn)

如果應(yīng)用智能語音系統(tǒng)呢？理想的情況跟人工客服沒有區(qū)別，但是全部由機(jī)器完成，想想看節(jié)省了多少人力成本。甚至線下的客服工作也可以替代。

4似智能語音助理這樣的產(chǎn)品，幫用戶處理一些短路徑目的明確的任務(wù)需求。

還有辦公領(lǐng)域、智能家居等等……

5、如何設(shè)計(jì)使用體驗(yàn)好的智能語音產(chǎn)品？

不管是界面產(chǎn)品還是語音產(chǎn)品，最終目的都是解決人們的問題。界面產(chǎn)品設(shè)計(jì)的部分標(biāo)準(zhǔn)和經(jīng)驗(yàn)依然適用。

比如設(shè)計(jì)流程上，同樣需要理解業(yè)務(wù)訴求、用戶訴求，要進(jìn)行用戶調(diào)研、分析用戶特征和觀察用戶行為，要挖掘使用場(chǎng)景中的問題和痛點(diǎn)，要梳理任務(wù)流程、設(shè)計(jì)信息架構(gòu)和方案設(shè)計(jì)，并且要去驗(yàn)證和迭代。

而語音交互過程中還需要注意以下問題：

流程簡單，路徑明確，最大限度減少對(duì)話輪數(shù)。

語音交互應(yīng)該避免不停的對(duì)話，太多輪對(duì)話用戶難以記住，并且會(huì)很煩躁。

信息傳達(dá)簡潔明了，避免大量內(nèi)容。

用戶的短期記憶量有限，信息太多用戶難以記住。

給予用戶適當(dāng)?shù)囊龑?dǎo)，避免或及時(shí)糾正用戶發(fā)散式思維導(dǎo)致的錯(cuò)誤。

用戶的語言表達(dá)是自由度非常高的，這會(huì)增加機(jī)器識(shí)別的難度，適當(dāng)?shù)囊龑?dǎo)讓用戶回到正確的道路。

系統(tǒng)狀態(tài)反饋，及時(shí)有效。

語音交互中的系統(tǒng)狀態(tài)反饋，要讓用戶及時(shí)了解當(dāng)前狀態(tài)，上下文關(guān)系，用戶所處流程的位置。

任何時(shí)刻都是“首頁”。

語音交互對(duì)用戶來說是快捷方式，有需求會(huì)直接說，而不會(huì)像界面產(chǎn)品先要回到首頁再去找相應(yīng)應(yīng)用。

加載過程要快。

在界面交互中頁面加載3秒以內(nèi)，配合狀態(tài)反饋，用戶是可以接受的。而語音交互用戶會(huì)更不耐心等待，所以加載過程要快，就像人與人之間對(duì)話一樣自然，才會(huì)令用戶滿意。

固定的、舒適的聲音風(fēng)格，令用戶愉悅。

固定的音樂、鈴聲，給用戶形成印象，讓人一聽見就知道是什么產(chǎn)品。例如微信、iphone鈴聲、新聞聯(lián)播片頭曲。動(dòng)聽、令人愉悅的聲音、音樂、鈴聲很重要，是產(chǎn)品氣質(zhì)的表現(xiàn)。

與機(jī)器的語音交流如何像人類一樣自然？

這是最后的疑問，我還沒有答案。機(jī)器的語音交流，不像人類一樣自然永遠(yuǎn)是最大問題，因?yàn)橹挥腥伺c人之間交流才是最自然和舒適的。如何讓機(jī)器學(xué)習(xí)和模仿人類，使它慢慢的向自然人“進(jìn)化”？

以上僅是分析和思考，并未經(jīng)過實(shí)踐驗(yàn)證，只希望給大家?guī)韱l(fā)。

本文由 @Wayne 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自PEXELS，基于CC0協(xié)議

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

語音交互設(shè)計(jì)怎么做？文章被收錄于該專欄

共 26 篇文章38897 人已學(xué)習(xí)

Wayne

產(chǎn)品經(jīng)理

1篇作品 23981總閱讀量

提升SaaS產(chǎn)品核心競(jìng)爭力，打造護(hù)城河

07-172854 瀏覽

8000字！拆解紛享銷客的 CRM 系統(tǒng)

02-2016240 瀏覽

B2B營銷增長，有哪些新玩法？

03-285674 瀏覽

Axure中繼器全選操作的“半選中狀態(tài)”及框選

05-192937 瀏覽

中國創(chuàng)業(yè)者，奮戰(zhàn)越南電商

06-022042 瀏覽

評(píng)論

AI木溪

自然語言交互和智能語音交互，后者包括前者。語音交互，不只是自然語言，還有聲學(xué)上的聲紋等。智能語音交互的智能，不只包括NLU，還有推理，決策判斷等，而且輸出也不一定是語言。

最近回復(fù)
1. Mr.can 回復(fù)AI木溪
  
  回答的通熟易懂，點(diǎn)個(gè)贊！
  
  最近來自浙江回復(fù)
2. Wayne 作者回復(fù)AI木溪
  
  ?? 受教了。
  一個(gè)外行，還需要學(xué)習(xí)。。。
  
  最近來自江蘇回復(fù)

ChatGPT大更新！OpenAI奉上程序員大禮包：API新增殺手級(jí)能力還降價(jià)，新模型、4倍上下文都來了

06-152058 瀏覽
微信「小綠書」，值不值得玩？

03-228268 瀏覽
這5個(gè)項(xiàng)目管理知識(shí)，運(yùn)營升職必知！

12-061921 瀏覽

關(guān)于智能語音交互的5點(diǎn)思考

?1、智能語音能成為人類主流的人機(jī)交互方式嗎？

?2、智能語音技術(shù)發(fā)展到什么階段了？

?3、智能語音交互與界面交互的異同點(diǎn)是什么？

界面交互是線性的，而語音交互是非線性的?

界面交互更多過程，語音交互直接指向結(jié)果?

界面交互可以沒有目標(biāo)，語音交互需要準(zhǔn)確的目標(biāo)?

語音交互的私密性更強(qiáng)，沒有界面交互覆蓋的使用場(chǎng)景多

4、智能語音交互適合哪些使用場(chǎng)景？

5、如何設(shè)計(jì)使用體驗(yàn)好的智能語音產(chǎn)品？

流程簡單，路徑明確，最大限度減少對(duì)話輪數(shù)。

信息傳達(dá)簡潔明了，避免大量內(nèi)容。

給予用戶適當(dāng)?shù)囊龑?dǎo)，避免或及時(shí)糾正用戶發(fā)散式思維導(dǎo)致的錯(cuò)誤。

系統(tǒng)狀態(tài)反饋，及時(shí)有效。