日韩三级在线网站,啪啪午夜免费,9l在线免费精品观看

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

語(yǔ)音對(duì)話系統(tǒng)的設(shè)計(jì)要點(diǎn)與多輪對(duì)話的重要性

阿拉燈神丁

2018-12-05

8 評(píng)論 11670 瀏覽 65 收藏

13 分鐘

當(dāng)今，ASR與TTS技術(shù)相對(duì)來(lái)將已經(jīng)成熟，自然語(yǔ)言的表示和理解已經(jīng)取得了很大的進(jìn)展，在行業(yè)的競(jìng)爭(zhēng)壁壘中也逐步削弱，未來(lái)智能對(duì)話機(jī)器人的核心競(jìng)爭(zhēng)力在于理解了用戶的意圖之后所提供的差異化服務(wù)。

就從最近短視頻平臺(tái)的大媽與機(jī)器人快寶的聊天說(shuō)起吧。

某銀行內(nèi)，一位阿姨因等待辦理業(yè)務(wù)的時(shí)間太長(zhǎng)，與快寶機(jī)器人展開(kāi)了一場(chǎng)來(lái)自靈魂的對(duì)話。對(duì)于銀行工作人員的不滿，大媽向快寶說(shuō)道：“你們的工作人員在里面哄孩子，怎么不出來(lái)辦業(yè)務(wù)？”

快寶答：“我們柜臺(tái)里的哥哥姐姐也在很努力的辦業(yè)務(wù)呢?！甭?tīng)到這個(gè)回答，阿姨試圖將快寶的身體轉(zhuǎn)向柜臺(tái)方向，說(shuō)：“你往里瞅瞅，是不是在哄孩子？”快寶嚶嚶嚶的好委屈：“你不要觸碰我了，跟我說(shuō)話就可以了”。

“快寶”說(shuō)話的語(yǔ)速和聲音非常清晰，邏輯性連貫，跟普通人說(shuō)話的方式簡(jiǎn)直一模一樣，比蘋(píng)果的 SIRI強(qiáng)太多，有網(wǎng)友甚至懷疑快寶“背后”是專(zhuān)門(mén)的人通過(guò)攝像頭在和人對(duì)話。

隨著人工智能相關(guān)技術(shù)的更新迭代，如今，ASR與TTS技術(shù)相對(duì)來(lái)將已經(jīng)成熟，自然語(yǔ)言的表示和理解已經(jīng)取得了很大的進(jìn)展，在行業(yè)的競(jìng)爭(zhēng)壁壘中也逐步削弱，未來(lái)智能對(duì)話機(jī)器人的核心競(jìng)爭(zhēng)力在于理解了用戶的意圖之后所提供的差異化服務(wù)。

下面我就在產(chǎn)品角度聊聊語(yǔ)音對(duì)話機(jī)器人的相關(guān)知識(shí)點(diǎn)，希望帶給各位一些思考。

一、智能語(yǔ)音對(duì)話系統(tǒng)的組成

智能語(yǔ)音對(duì)話系統(tǒng)大致可分為五個(gè)基本模塊：語(yǔ)音識(shí)別(ASR)、自然語(yǔ)音理解(NLU)、對(duì)話管理(DM)、自然語(yǔ)言生成(NLG)、語(yǔ)音合成(TTS)。

語(yǔ)音識(shí)別將語(yǔ)音轉(zhuǎn)化文字，讓機(jī)器讀取用戶再說(shuō)什么，自然語(yǔ)言理解是理解用戶說(shuō)的話是什么意思，分析用戶說(shuō)話的意圖，和對(duì)用戶語(yǔ)言中核心詞槽的解析。

而對(duì)話管理(Dialog Management，DM)就是人機(jī)對(duì)話中的CPU，控制著整個(gè)人機(jī)對(duì)話的過(guò)程。

對(duì)話管理的任務(wù)主要有下四點(diǎn)：

對(duì)話狀態(tài)維護(hù)(dialog state tracing,DST)
生成系統(tǒng)決策(dialog policy)
作為接口與后端/任務(wù)模型進(jìn)行交互
提供語(yǔ)義表達(dá)的期望值(expections for interpretation)

由對(duì)話管理分析出用戶的意圖之后并做出相關(guān)行為，自然語(yǔ)言生成對(duì)用戶任務(wù)的處理結(jié)果以文字形式生成，然后語(yǔ)音合成將此結(jié)果合成為語(yǔ)音說(shuō)出來(lái)。就形成了人機(jī)對(duì)話的整個(gè)過(guò)程。

二、人機(jī)對(duì)話的分類(lèi)

個(gè)人將常見(jiàn)的人機(jī)對(duì)話分為日常撩撥型和任務(wù)驅(qū)動(dòng)型。

最常見(jiàn)的就是任務(wù)驅(qū)動(dòng)的多輪對(duì)話，用戶是帶著明確的目的如訂餐、訂票、叫車(chē)等比較復(fù)雜的需求來(lái)，而這中間有很多限制條件，用戶并不能一次將任務(wù)所需的關(guān)鍵信息一次性說(shuō)完、說(shuō)清楚，因此就要分多輪進(jìn)行QA問(wèn)答。

一方面，用戶在對(duì)話過(guò)程中，可以不斷修正和完善自己的需求；另一方方面，當(dāng)用戶在陳述需求不夠具體和明確時(shí)，機(jī)器人可以通過(guò)詢問(wèn)、澄清和確認(rèn)來(lái)幫助用戶尋找滿意的結(jié)果，并且在任務(wù)的驅(qū)動(dòng)下與用戶完成日常的交互，以此不斷完善對(duì)于用戶需求的滿足。

而日常撩撥型對(duì)話中的關(guān)鍵，是要根據(jù)用戶喚醒機(jī)器人時(shí)和喚醒之后第一句話的日期時(shí)間和語(yǔ)氣來(lái)判斷用戶當(dāng)前的情緒，比如：周五晚上9點(diǎn)下班回家，而喚醒時(shí)語(yǔ)氣中帶著些許匹配疲憊與不開(kāi)心，此時(shí)就需要機(jī)器人的安慰和鼓勵(lì)，以此滿足用戶的情感需求。

當(dāng)用戶心情愉悅時(shí)，對(duì)話中還可以偶爾“皮一下”，對(duì)話中一定要有讓用戶驚艷的句子和當(dāng)下比較流行的詞語(yǔ)，有趣和好玩是日常撩撥對(duì)話中的剛需，而這需要訓(xùn)練師不斷更新語(yǔ)料庫(kù)，以此來(lái)持續(xù)性對(duì)智能語(yǔ)音設(shè)備的依戀。

三、對(duì)話管理的重要性

對(duì)話管理對(duì)于多輪對(duì)話又異常重要，因?yàn)閱卧~對(duì)話每次聊天都需要用戶去喚醒語(yǔ)音對(duì)話機(jī)器人，用戶必須每次將需求完成的說(shuō)出，否則幾次對(duì)話下來(lái)用戶將會(huì)產(chǎn)生煩躁的情緒，語(yǔ)音對(duì)話機(jī)器人將會(huì)變得雞肋。

下面我們來(lái)分解下對(duì)話管理的大致任務(wù)：

1. 對(duì)話狀態(tài)維護(hù)(DST)

維護(hù)和更新對(duì)話狀態(tài)，t+1時(shí)刻的對(duì)話狀態(tài)St+1,依賴(lài)于前一時(shí)刻t的對(duì)話狀態(tài)St，和之前時(shí)刻t的系統(tǒng)行為at，以及當(dāng)前時(shí)刻t+1對(duì)應(yīng)的用戶行為Ot+1。

因此整個(gè)依賴(lài)關(guān)系就是：

2. 生成系統(tǒng)決策(dialog policy)

根據(jù)DST中的對(duì)話狀態(tài)，產(chǎn)生系統(tǒng)行為，決定下一步做什么可以監(jiān)測(cè)到用戶的輸入，就是NLU的過(guò)程，以及系統(tǒng)對(duì)于NLU的反饋行為，就是NLG。

3. 作為接口與后端/任務(wù)模型進(jìn)行交互

作為應(yīng)用程序接口與服務(wù)器端或任務(wù)模型進(jìn)行請(qǐng)求交互，獲取反饋結(jié)果，生成文字結(jié)果。

4. 提供語(yǔ)義表達(dá)的期望值

根據(jù)用戶輸入的表達(dá)，包括語(yǔ)言表達(dá)和語(yǔ)義解析，做出滿足用戶期望的語(yǔ)義表達(dá)，滿足用戶需求。

多輪對(duì)話中為了清晰明確的理解用戶的意圖和需求，將對(duì)話建模過(guò)程中缺少的信息形成一個(gè)填槽的過(guò)程，槽就是多輪對(duì)話當(dāng)中將初步用戶意圖轉(zhuǎn)化為明確用戶指令所需要補(bǔ)全的信息。一個(gè)槽與任務(wù)處理中所需要獲取的一種信息相對(duì)應(yīng)。槽沒(méi)有順序，缺什么槽就向用戶詢問(wèn)什么信息。

基于框架式的對(duì)話管理(Frame-based DM)需要如下要點(diǎn)：

框架：槽位的集合，定義了需要由用戶提供哪些信息；
對(duì)話狀態(tài)：記錄了哪些槽位已經(jīng)被填充，那些槽位待填充；
行為選擇：下一步該向用戶詢問(wèn)哪些信息，填充哪些槽位，進(jìn)行何種操作，對(duì)哪些槽位進(jìn)行加權(quán)填充。

基于框架的系統(tǒng)本質(zhì)上是一個(gè)生成系統(tǒng)，不同類(lèi)型的輸入觸發(fā)不同的生成規(guī)則，每個(gè)生成靈活的填入相應(yīng)的模板，這些模型的和框架的設(shè)計(jì)只為在滿足用戶需求的前提下，盡快的完成必要信息的獲取。

5. 語(yǔ)音對(duì)話系統(tǒng)的設(shè)計(jì)要點(diǎn)

設(shè)計(jì)語(yǔ)音對(duì)話系統(tǒng)需要注意的5個(gè)要點(diǎn)：

行為模式的設(shè)計(jì)、交互過(guò)程的設(shè)計(jì)、知識(shí)結(jié)構(gòu)的設(shè)計(jì)、人格情緒的設(shè)計(jì)、熟悉過(guò)程的設(shè)計(jì)，我們又可以將這5中設(shè)計(jì)要點(diǎn)進(jìn)行情景細(xì)分：

在整體架構(gòu)設(shè)計(jì)當(dāng)中，加入這些細(xì)分情景的收集，透過(guò)用戶與機(jī)器對(duì)話的行為細(xì)分模式，包括知識(shí)結(jié)構(gòu)和人格情緒的收集，來(lái)出一個(gè)虛擬人格。此模式就相當(dāng)于某寶或某東商城根據(jù)用戶的點(diǎn)擊、搜索和瀏覽行為結(jié)合大數(shù)據(jù)生成的千人千面，通過(guò)語(yǔ)音交互的使用過(guò)程，了解用戶習(xí)慣進(jìn)而達(dá)到更好的體驗(yàn)。

語(yǔ)音對(duì)話體驗(yàn)可分為三個(gè)方向：聲音形象、對(duì)話交互模式和對(duì)話內(nèi)容，它們分別對(duì)應(yīng)GUI時(shí)代的品牌設(shè)計(jì)、交互設(shè)計(jì)、服務(wù)設(shè)計(jì)，產(chǎn)品經(jīng)理需要把握好機(jī)器人與人的平衡點(diǎn)，不要過(guò)度人性化，以免某些點(diǎn)不能滿足用戶的過(guò)渡預(yù)期，而產(chǎn)生的失望。

人類(lèi)的大腦依賴(lài)所學(xué)的知識(shí)進(jìn)行思考、邏輯推理和語(yǔ)言理解。而機(jī)器人則是依賴(lài)數(shù)據(jù)的訓(xùn)練，互聯(lián)網(wǎng)時(shí)代積累的大量的數(shù)據(jù)能為訓(xùn)練機(jī)器人提供的強(qiáng)有力的保障。

對(duì)話機(jī)器人以數(shù)據(jù)為基礎(chǔ)，利用深度學(xué)習(xí)模型和算法，對(duì)人類(lèi)世界進(jìn)行感知、識(shí)別和判斷，并通過(guò)知識(shí)圖譜對(duì)人類(lèi)的知識(shí)進(jìn)行梳理、整合、推理，變成有智慧的AI。

四、對(duì)話機(jī)器人所面臨的問(wèn)題

人的復(fù)雜性(complex)、隨機(jī)性(random)、和非理性化(illogica)的特點(diǎn)導(dǎo)致人機(jī)對(duì)話在應(yīng)用場(chǎng)景下面臨者各種各樣的問(wèn)題，包括但不限于如下問(wèn)題：

模型描述能力與業(yè)務(wù)復(fù)雜度的權(quán)衡。
用戶對(duì)話偏離業(yè)務(wù)涉及的路徑及邊界；如：系統(tǒng)問(wèn)用戶導(dǎo)航的目的地時(shí)，用戶反問(wèn)了一句某地天氣情況。
多輪對(duì)話的容錯(cuò)性；如：3輪對(duì)話的場(chǎng)景，用戶已經(jīng)完成2輪，第3輪由于ASR或NLU錯(cuò)誤，導(dǎo)致前功盡棄，如此用戶體驗(yàn)就非常差。
多場(chǎng)景的的切換和回復(fù)。
降低交互變更難度，適應(yīng)業(yè)務(wù)迅速變化。
跨場(chǎng)景信息繼承。

五、結(jié)束語(yǔ)

未來(lái)對(duì)話機(jī)器人除了被動(dòng)回復(fù)用戶的請(qǐng)求外，主動(dòng)預(yù)測(cè)用戶需求并提供即時(shí)方案成為必然的發(fā)展方向，當(dāng)用戶沒(méi)有給出明確的需求情況下，提醒即將發(fā)生的事件或推薦有用的服務(wù)，人們會(huì)逐漸依靠他們來(lái)管理自己的工作生活，提高生活效率及幸福感。

對(duì)話機(jī)器人的目標(biāo)不一定是解決用戶面臨的所有問(wèn)題，而是成為用戶的虛擬助理。通過(guò)與用戶建立情感鏈接，理解用戶，長(zhǎng)期范圍內(nèi)幫助他們，與用戶建立多種形式的交流，包括文本、語(yǔ)音和圖像以及視頻功能。

作者：阿拉丁大神燈（簡(jiǎn)書(shū)ID：阿拉丁大神燈）歡迎交流。

本文由 @阿拉丁大神燈授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)作者許可，禁止轉(zhuǎn)載。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

阿拉燈神丁

公眾號(hào)：AI智見(jiàn)未來(lái)；www.bobinsun.cn

4篇作品 48345總閱讀量

張一鳴和字節(jié)管理團(tuán)隊(duì)，給王興匹配了一個(gè)年輕的對(duì)手

02-098904 瀏覽

拼多多這一刀，狠狠地砍向了SHEIN

02-082939 瀏覽

文旅新趨勢(shì)：避開(kāi)“人從眾”，開(kāi)啟新玩法

10-081708 瀏覽

“算呆子”之獨(dú)立于運(yùn)營(yíng)體系之外的企業(yè)數(shù)字化

03-048163 瀏覽

汽車(chē)廠商為什么和視頻平臺(tái)“談戀愛(ài)”？

04-202624 瀏覽

評(píng)論

Molly

感謝作者的分享，文中圖片看不了哎，求分享 ?

最近來(lái)自浙江回復(fù)
A小幸運(yùn)besos

我也在做這塊,對(duì)話機(jī)器人,感覺(jué)很多東西還是不清晰

最近來(lái)自江蘇回復(fù)
Harold Lee

文章寫(xiě)得很好，邏輯清晰。對(duì)于具體概念的解釋也很到位。
“智能語(yǔ)音對(duì)話系統(tǒng)大致可分為五個(gè)基本模塊：語(yǔ)音識(shí)別(ASR)、自然語(yǔ)音理解(NLU)、對(duì)話管理(DM)、自然語(yǔ)言生成(NLG)、語(yǔ)音合成(TTS)。”這個(gè)模塊概括的很到位，對(duì)于像我這樣的剛剛接觸智能語(yǔ)音的PM有很大的幫助，可以幫助我們更好的理解產(chǎn)品的底層邏輯。如果作者方便的話，希望有更多的交流。本人微信：alizhangquan

最近來(lái)自北京回復(fù)
Neo Ma

作者對(duì)語(yǔ)音對(duì)話還是有很系統(tǒng)性認(rèn)知的，如果能更好的把用戶畫(huà)像描繪出來(lái)，智能音箱就有了更多的想象空間。希望與作者有更多交流，本人微信：17600186726

最近來(lái)自北京回復(fù)
1. 阿拉燈神丁作者回復(fù)Neo Ma
  
  已加。
  
  最近回復(fù)
甜筒

666

最近來(lái)自北京回復(fù)
未來(lái)猩

很有幫助，多謝！

最近來(lái)自廣東回復(fù)
1. 阿拉燈神丁作者回復(fù)未來(lái)猩
  
  你的鼓勵(lì)，我的動(dòng)力 ??
  
  最近來(lái)自北京回復(fù)