語(yǔ)音對(duì)話系統(tǒng)的設(shè)計(jì)要點(diǎn)與多輪對(duì)話的重要性

8 評(píng)論 11670 瀏覽 65 收藏 13 分鐘

當(dāng)今,ASR與TTS技術(shù)相對(duì)來(lái)將已經(jīng)成熟,自然語(yǔ)言的表示和理解已經(jīng)取得了很大的進(jìn)展,在行業(yè)的競(jìng)爭(zhēng)壁壘中也逐步削弱,未來(lái)智能對(duì)話機(jī)器人的核心競(jìng)爭(zhēng)力在于理解了用戶的意圖之后所提供的差異化服務(wù)。

就從最近短視頻平臺(tái)的大媽與機(jī)器人快寶的聊天說(shuō)起吧。

001.jpg

某銀行內(nèi),一位阿姨因等待辦理業(yè)務(wù)的時(shí)間太長(zhǎng),與快寶機(jī)器人展開(kāi)了一場(chǎng)來(lái)自靈魂的對(duì)話。對(duì)于銀行工作人員的不滿,大媽向快寶說(shuō)道:“你們的工作人員在里面哄孩子,怎么不出來(lái)辦業(yè)務(wù)?”

快寶答:“我們柜臺(tái)里的哥哥姐姐也在很努力的辦業(yè)務(wù)呢?!甭?tīng)到這個(gè)回答,阿姨試圖將快寶的身體轉(zhuǎn)向柜臺(tái)方向,說(shuō):“你往里瞅瞅,是不是在哄孩子?”快寶嚶嚶嚶的好委屈:“你不要觸碰我了,跟我說(shuō)話就可以了”。

“快寶”說(shuō)話的語(yǔ)速和聲音非常清晰,邏輯性連貫,跟普通人說(shuō)話的方式簡(jiǎn)直一模一樣,比蘋(píng)果的 SIRI強(qiáng)太多,有網(wǎng)友甚至懷疑快寶“背后”是專(zhuān)門(mén)的人通過(guò)攝像頭在和人對(duì)話。

隨著人工智能相關(guān)技術(shù)的更新迭代,如今,ASR與TTS技術(shù)相對(duì)來(lái)將已經(jīng)成熟,自然語(yǔ)言的表示和理解已經(jīng)取得了很大的進(jìn)展,在行業(yè)的競(jìng)爭(zhēng)壁壘中也逐步削弱,未來(lái)智能對(duì)話機(jī)器人的核心競(jìng)爭(zhēng)力在于理解了用戶的意圖之后所提供的差異化服務(wù)。

下面我就在產(chǎn)品角度聊聊語(yǔ)音對(duì)話機(jī)器人的相關(guān)知識(shí)點(diǎn),希望帶給各位一些思考。

一、智能語(yǔ)音對(duì)話系統(tǒng)的組成

智能語(yǔ)音對(duì)話系統(tǒng)大致可分為五個(gè)基本模塊:語(yǔ)音識(shí)別(ASR)、自然語(yǔ)音理解(NLU)、對(duì)話管理(DM)、自然語(yǔ)言生成(NLG)、語(yǔ)音合成(TTS)。

002.jpg

語(yǔ)音識(shí)別將語(yǔ)音轉(zhuǎn)化文字,讓機(jī)器讀取用戶再說(shuō)什么,自然語(yǔ)言理解是理解用戶說(shuō)的話是什么意思,分析用戶說(shuō)話的意圖,和對(duì)用戶語(yǔ)言中核心詞槽的解析。

而對(duì)話管理(Dialog Management,DM)就是人機(jī)對(duì)話中的CPU,控制著整個(gè)人機(jī)對(duì)話的過(guò)程。

對(duì)話管理的任務(wù)主要有下四點(diǎn):

  1. 對(duì)話狀態(tài)維護(hù)(dialog state tracing,DST)
  2. 生成系統(tǒng)決策(dialog policy)
  3. 作為接口與后端/任務(wù)模型進(jìn)行交互
  4. 提供語(yǔ)義表達(dá)的期望值(expections for interpretation)

由對(duì)話管理分析出用戶的意圖之后并做出相關(guān)行為,自然語(yǔ)言生成對(duì)用戶任務(wù)的處理結(jié)果以文字形式生成,然后語(yǔ)音合成將此結(jié)果合成為語(yǔ)音說(shuō)出來(lái)。就形成了人機(jī)對(duì)話的整個(gè)過(guò)程。

二、人機(jī)對(duì)話的分類(lèi)

個(gè)人將常見(jiàn)的人機(jī)對(duì)話分為日常撩撥型和任務(wù)驅(qū)動(dòng)型。

最常見(jiàn)的就是任務(wù)驅(qū)動(dòng)的多輪對(duì)話,用戶是帶著明確的目的如訂餐、訂票、叫車(chē)等比較復(fù)雜的需求來(lái),而這中間有很多限制條件,用戶并不能一次將任務(wù)所需的關(guān)鍵信息一次性說(shuō)完、說(shuō)清楚,因此就要分多輪進(jìn)行QA問(wèn)答。

一方面,用戶在對(duì)話過(guò)程中,可以不斷修正和完善自己的需求;另一方方面,當(dāng)用戶在陳述需求不夠具體和明確時(shí),機(jī)器人可以通過(guò)詢問(wèn)、澄清和確認(rèn)來(lái)幫助用戶尋找滿意的結(jié)果,并且在任務(wù)的驅(qū)動(dòng)下與用戶完成日常的交互,以此不斷完善對(duì)于用戶需求的滿足。

而日常撩撥型對(duì)話中的關(guān)鍵,是要根據(jù)用戶喚醒機(jī)器人時(shí)和喚醒之后第一句話的日期時(shí)間和語(yǔ)氣來(lái)判斷用戶當(dāng)前的情緒,比如:周五晚上9點(diǎn)下班回家,而喚醒時(shí)語(yǔ)氣中帶著些許匹配疲憊與不開(kāi)心,此時(shí)就需要機(jī)器人的安慰和鼓勵(lì),以此滿足用戶的情感需求。

當(dāng)用戶心情愉悅時(shí),對(duì)話中還可以偶爾“皮一下”,對(duì)話中一定要有讓用戶驚艷的句子和當(dāng)下比較流行的詞語(yǔ),有趣和好玩是日常撩撥對(duì)話中的剛需,而這需要訓(xùn)練師不斷更新語(yǔ)料庫(kù),以此來(lái)持續(xù)性對(duì)智能語(yǔ)音設(shè)備的依戀。

003.png

三、對(duì)話管理的重要性

對(duì)話管理對(duì)于多輪對(duì)話又異常重要,因?yàn)閱卧~對(duì)話每次聊天都需要用戶去喚醒語(yǔ)音對(duì)話機(jī)器人,用戶必須每次將需求完成的說(shuō)出,否則幾次對(duì)話下來(lái)用戶將會(huì)產(chǎn)生煩躁的情緒,語(yǔ)音對(duì)話機(jī)器人將會(huì)變得雞肋。

下面我們來(lái)分解下對(duì)話管理的大致任務(wù):

1. 對(duì)話狀態(tài)維護(hù)(DST)

維護(hù)和更新對(duì)話狀態(tài),t+1時(shí)刻的對(duì)話狀態(tài)St+1,依賴(lài)于前一時(shí)刻t的對(duì)話狀態(tài)St,和之前時(shí)刻t的系統(tǒng)行為at,以及當(dāng)前時(shí)刻t+1對(duì)應(yīng)的用戶行為Ot+1。

因此整個(gè)依賴(lài)關(guān)系就是:

010.png

2. 生成系統(tǒng)決策(dialog policy)

根據(jù)DST中的對(duì)話狀態(tài),產(chǎn)生系統(tǒng)行為,決定下一步做什么可以監(jiān)測(cè)到用戶的輸入,就是NLU的過(guò)程,以及系統(tǒng)對(duì)于NLU的反饋行為,就是NLG。

3. 作為接口與后端/任務(wù)模型進(jìn)行交互

作為應(yīng)用程序接口與服務(wù)器端或任務(wù)模型進(jìn)行請(qǐng)求交互,獲取反饋結(jié)果,生成文字結(jié)果。

4. 提供語(yǔ)義表達(dá)的期望值

根據(jù)用戶輸入的表達(dá),包括語(yǔ)言表達(dá)和語(yǔ)義解析,做出滿足用戶期望的語(yǔ)義表達(dá),滿足用戶需求。

多輪對(duì)話中為了清晰明確的理解用戶的意圖和需求,將對(duì)話建模過(guò)程中缺少的信息形成一個(gè)填槽的過(guò)程,槽就是多輪對(duì)話當(dāng)中將初步用戶意圖轉(zhuǎn)化為明確用戶指令所需要補(bǔ)全的信息。一個(gè)槽與任務(wù)處理中所需要獲取的一種信息相對(duì)應(yīng)。槽沒(méi)有順序,缺什么槽就向用戶詢問(wèn)什么信息。

基于框架式的對(duì)話管理(Frame-based DM)需要如下要點(diǎn):

  1. 框架:槽位的集合,定義了需要由用戶提供哪些信息;
  2. 對(duì)話狀態(tài):記錄了哪些槽位已經(jīng)被填充,那些槽位待填充;
  3. 行為選擇:下一步該向用戶詢問(wèn)哪些信息,填充哪些槽位,進(jìn)行何種操作,對(duì)哪些槽位進(jìn)行加權(quán)填充。

基于框架的系統(tǒng)本質(zhì)上是一個(gè)生成系統(tǒng),不同類(lèi)型的輸入觸發(fā)不同的生成規(guī)則,每個(gè)生成靈活的填入相應(yīng)的模板,這些模型的和框架的設(shè)計(jì)只為在滿足用戶需求的前提下,盡快的完成必要信息的獲取。

5. 語(yǔ)音對(duì)話系統(tǒng)的設(shè)計(jì)要點(diǎn)

設(shè)計(jì)語(yǔ)音對(duì)話系統(tǒng)需要注意的5個(gè)要點(diǎn):

行為模式的設(shè)計(jì)、交互過(guò)程的設(shè)計(jì)、知識(shí)結(jié)構(gòu)的設(shè)計(jì)、人格情緒的設(shè)計(jì)、熟悉過(guò)程的設(shè)計(jì),我們又可以將這5中設(shè)計(jì)要點(diǎn)進(jìn)行情景細(xì)分:

004.png

在整體架構(gòu)設(shè)計(jì)當(dāng)中,加入這些細(xì)分情景的收集,透過(guò)用戶與機(jī)器對(duì)話的行為細(xì)分模式,包括知識(shí)結(jié)構(gòu)和人格情緒的收集,來(lái)出一個(gè)虛擬人格。此模式就相當(dāng)于某寶或某東商城根據(jù)用戶的點(diǎn)擊、搜索和瀏覽行為結(jié)合大數(shù)據(jù)生成的千人千面,通過(guò)語(yǔ)音交互的使用過(guò)程,了解用戶習(xí)慣進(jìn)而達(dá)到更好的體驗(yàn)。

語(yǔ)音對(duì)話體驗(yàn)可分為三個(gè)方向:聲音形象、對(duì)話交互模式和對(duì)話內(nèi)容,它們分別對(duì)應(yīng)GUI時(shí)代的品牌設(shè)計(jì)、交互設(shè)計(jì)、服務(wù)設(shè)計(jì),產(chǎn)品經(jīng)理需要把握好機(jī)器人與人的平衡點(diǎn),不要過(guò)度人性化,以免某些點(diǎn)不能滿足用戶的過(guò)渡預(yù)期,而產(chǎn)生的失望。

人類(lèi)的大腦依賴(lài)所學(xué)的知識(shí)進(jìn)行思考、邏輯推理和語(yǔ)言理解。而機(jī)器人則是依賴(lài)數(shù)據(jù)的訓(xùn)練,互聯(lián)網(wǎng)時(shí)代積累的大量的數(shù)據(jù)能為訓(xùn)練機(jī)器人提供的強(qiáng)有力的保障。

對(duì)話機(jī)器人以數(shù)據(jù)為基礎(chǔ),利用深度學(xué)習(xí)模型和算法,對(duì)人類(lèi)世界進(jìn)行感知、識(shí)別和判斷,并通過(guò)知識(shí)圖譜對(duì)人類(lèi)的知識(shí)進(jìn)行梳理、整合、推理,變成有智慧的AI。

005.png

四、對(duì)話機(jī)器人所面臨的問(wèn)題

人的復(fù)雜性(complex)、隨機(jī)性(random)、和非理性化(illogica)的特點(diǎn)導(dǎo)致人機(jī)對(duì)話在應(yīng)用場(chǎng)景下面臨者各種各樣的問(wèn)題,包括但不限于如下問(wèn)題:

  1. 模型描述能力與業(yè)務(wù)復(fù)雜度的權(quán)衡。
  2. 用戶對(duì)話偏離業(yè)務(wù)涉及的路徑及邊界;如:系統(tǒng)問(wèn)用戶導(dǎo)航的目的地時(shí),用戶反問(wèn)了一句某地天氣情況。
  3. 多輪對(duì)話的容錯(cuò)性;如:3輪對(duì)話的場(chǎng)景,用戶已經(jīng)完成2輪,第3輪由于ASR或NLU錯(cuò)誤,導(dǎo)致前功盡棄,如此用戶體驗(yàn)就非常差。
  4. 多場(chǎng)景的的切換和回復(fù)。
  5. 降低交互變更難度,適應(yīng)業(yè)務(wù)迅速變化。
  6. 跨場(chǎng)景信息繼承。

五、結(jié)束語(yǔ)

未來(lái)對(duì)話機(jī)器人除了被動(dòng)回復(fù)用戶的請(qǐng)求外,主動(dòng)預(yù)測(cè)用戶需求并提供即時(shí)方案成為必然的發(fā)展方向,當(dāng)用戶沒(méi)有給出明確的需求情況下,提醒即將發(fā)生的事件或推薦有用的服務(wù),人們會(huì)逐漸依靠他們來(lái)管理自己的工作生活,提高生活效率及幸福感。

對(duì)話機(jī)器人的目標(biāo)不一定是解決用戶面臨的所有問(wèn)題,而是成為用戶的虛擬助理。通過(guò)與用戶建立情感鏈接,理解用戶,長(zhǎng)期范圍內(nèi)幫助他們,與用戶建立多種形式的交流,包括文本、語(yǔ)音和圖像以及視頻功能。

 

作者:阿拉丁大神燈(簡(jiǎn)書(shū)ID:阿拉丁大神燈)歡迎交流。

本文由 @阿拉丁大神燈 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 感謝作者的分享,文中圖片看不了哎,求分享 ?

    來(lái)自浙江 回復(fù)
  2. 我也在做這塊,對(duì)話機(jī)器人,感覺(jué)很多東西還是不清晰

    來(lái)自江蘇 回復(fù)
  3. 文章寫(xiě)得很好,邏輯清晰。對(duì)于具體概念的解釋也很到位。
    “智能語(yǔ)音對(duì)話系統(tǒng)大致可分為五個(gè)基本模塊:語(yǔ)音識(shí)別(ASR)、自然語(yǔ)音理解(NLU)、對(duì)話管理(DM)、自然語(yǔ)言生成(NLG)、語(yǔ)音合成(TTS)。”這個(gè)模塊概括的很到位,對(duì)于像我這樣的剛剛接觸智能語(yǔ)音的PM有很大的幫助,可以幫助我們更好的理解產(chǎn)品的底層邏輯。如果作者方便的話,希望有更多的交流。本人微信:alizhangquan

    來(lái)自北京 回復(fù)
  4. 作者對(duì)語(yǔ)音對(duì)話還是有很系統(tǒng)性認(rèn)知的,如果能更好的把用戶畫(huà)像描繪出來(lái),智能音箱就有了更多的想象空間。希望與作者有更多交流,本人微信:17600186726

    來(lái)自北京 回復(fù)
    1. 已加。

      回復(fù)
  5. 666

    來(lái)自北京 回復(fù)
  6. 很有幫助,多謝!

    來(lái)自廣東 回復(fù)
    1. 你的鼓勵(lì),我的動(dòng)力 ??

      來(lái)自北京 回復(fù)