AI產(chǎn)品經(jīng)理需要了解的智能語(yǔ)音知識(shí):上下文的對(duì)話管理
編輯導(dǎo)讀:隨著人工智能的發(fā)展,市面上出現(xiàn)了很多智能產(chǎn)品,它們的核心是希望解放人,用機(jī)器來(lái)幫助完成簡(jiǎn)單的工作。其中,智能語(yǔ)音是最常用到的應(yīng)用之一。本文梳理了一些AI產(chǎn)品經(jīng)理需要了解的智能語(yǔ)音知識(shí),與你分享。
智能產(chǎn)品經(jīng)過(guò)幾年的打磨,從開(kāi)始簡(jiǎn)單的天氣查詢,播放歌曲,到去年前年的家庭、車內(nèi)IOT設(shè)備互聯(lián),直到今年火爆的AI生活服務(wù)。
整個(gè)演變的過(guò)程,不僅僅說(shuō)明了技術(shù)的革新,也逐漸說(shuō)明用戶對(duì)新功能的期待,以及對(duì)智能產(chǎn)品表現(xiàn)出來(lái)的更大接受度和包容度。智能語(yǔ)音從簡(jiǎn)單的單輪指令性操作,逐漸演變成可以進(jìn)行多次的連續(xù)對(duì)話,甚至有些問(wèn)題似乎可以匹配人類的聰明回復(fù)。
1. 智能語(yǔ)音的整個(gè)交互流程
主要有以下幾個(gè)步驟:
聽(tīng)清:用戶說(shuō)一句話,機(jī)器先把用戶的語(yǔ)音轉(zhuǎn)變成文字,讓機(jī)器讀懂用戶具體說(shuō)了什么。
聽(tīng)懂:包括意圖識(shí)別和任務(wù)分發(fā),主要是自然語(yǔ)言理解技術(shù),包含nli和nlp的技術(shù)實(shí)現(xiàn)。讓機(jī)器明白用戶到底是說(shuō)了什么。
- 意圖識(shí)別:用戶說(shuō)話的意圖:要結(jié)合當(dāng)前的用戶使用情景,服務(wù)場(chǎng)景,硬件環(huán)境,機(jī)器會(huì)按聽(tīng)懂的內(nèi)容,給出一個(gè)N-bestlist,按權(quán)重進(jìn)行排序。
- 意圖分發(fā):拿到N-bestlist上面排位最靠前的意圖,去請(qǐng)求指定的domain數(shù)據(jù)并執(zhí)行任務(wù)。
渲染界面:用戶聽(tīng)到機(jī)器的TTS回復(fù),以及GUI的頁(yè)面呈現(xiàn)內(nèi)容。
這其中第二步就是對(duì)話管理,主要完成對(duì)話狀態(tài)的維護(hù)(dialog state tracing,DST),生成系統(tǒng)決策(dialog policy),作為接口與人物模型進(jìn)行匹配、提供語(yǔ)義表達(dá)的期望值(expections for interpretation)、分發(fā)任務(wù)記錄當(dāng)前queryID和pageID。當(dāng)前是用戶的一次對(duì)話需要經(jīng)歷的全部流程,如果需要多次的對(duì)話,就要不斷的維護(hù)對(duì)話棧,并且對(duì)話棧要匹配當(dāng)前的pageID,才能幫助用戶經(jīng)歷多次跳轉(zhuǎn)都能到達(dá)預(yù)期的頁(yè)面,所以多輪交互更加復(fù)雜和難以掌控,本文具體介紹多倫交互如何在產(chǎn)品上的實(shí)現(xiàn),和當(dāng)前存在的技術(shù)問(wèn)題,以及產(chǎn)品如何規(guī)避技術(shù)問(wèn)
2. 多輪交互的三種產(chǎn)品形態(tài)
「問(wèn)題補(bǔ)充」
定義說(shuō)明:需要用戶填補(bǔ)確定槽位信息以后,才能讓機(jī)器明白用戶的當(dāng)下的真實(shí)需求,同事,機(jī)器基于用戶的多次槽位回復(fù)找到相對(duì)應(yīng)的nli,并且給出用戶需要的結(jié)果。槽位的集合,定義了需要用戶提供哪些信息。
應(yīng)用場(chǎng)景:主要應(yīng)用在一次對(duì)話不能讓機(jī)器明白用戶的意圖,需要進(jìn)行多次對(duì)話,機(jī)器拿到固定的多次結(jié)果后才能給出結(jié)果,主要應(yīng)用在多步驟的同類型任務(wù)中。
以上例子可以看出來(lái),只有用戶說(shuō)了最后一句話,電話才能打通。這期間經(jīng)歷了【遍歷電話本】-【nli匹配用戶名稱】-【提取結(jié)果】-【上下文管理】-【指代上文的第幾個(gè)】-【撥打電話】基于上文內(nèi)容,經(jīng)過(guò)幾個(gè)步驟才能完成打電話功能。
「搜索&篩選」
定義說(shuō)明:用戶需要進(jìn)一步縮小自己的搜索選擇范圍,經(jīng)過(guò)多次篩選和多個(gè)上文條件的累加,才可以讓機(jī)器找到當(dāng)前用戶需要的結(jié)果。
應(yīng)用場(chǎng)景:多倫篩選和搜索,是用戶區(qū)別與手機(jī)APP交互的主要應(yīng)用場(chǎng)景。界面的篩選只能做到,單條件的篩選,想要附加其他條件,或同類型服務(wù)對(duì)比,需要GUI操作或者打開(kāi)新的APP重新選擇。整個(gè)流程相對(duì)繁雜。語(yǔ)音解決了用戶重新選擇,點(diǎn)擊界面的操作步驟。用戶可以先看一下機(jī)票,如果不滿意立刻切換火車票,如果還不滿意,再返回機(jī)票,機(jī)票也可以進(jìn)行多次的篩選選擇出自己需要的機(jī)票信息。
用戶不需要每一次對(duì)話都要說(shuō)清楚北京到上海的條件,在對(duì)話的開(kāi)始說(shuō)一次,之后的查詢車票和返回機(jī)票都是按當(dāng)前起始地和目的地進(jìn)行查詢。如果用戶想要更換城市,可以query“深圳出發(fā)”,這時(shí)候起始地就會(huì)更改為深圳市。
「跨場(chǎng)景跳轉(zhuǎn)」
定義說(shuō)明:不同場(chǎng)景內(nèi)的上下文指代,主要通過(guò)“名稱指代”,“他”等代替上個(gè)場(chǎng)景的主要部分。
應(yīng)用場(chǎng)景:用戶的任務(wù)是連續(xù)的,可能需要跨越幾個(gè)APP才能結(jié)束??鐖?chǎng)景的上下文對(duì)話管理,不僅讓用戶感受無(wú)感APP的跳轉(zhuǎn),還能讓用戶感受到語(yǔ)音比GUI操作的真實(shí)便利感。
從上文的交互流程可以看到,【人物百科】-【歌曲】-【電影信息】-【播放視頻】如果按當(dāng)前app的呈現(xiàn)方式,用戶想要看個(gè)視頻,要打開(kāi)查詢并手動(dòng)關(guān)閉3個(gè)app包括【百度百科APP】-【QQ音樂(lè)APP】-【騰訊視頻APP】這個(gè)流程根本不可能1分鐘內(nèi)完成。這就凸顯了語(yǔ)音交互的優(yōu)勢(shì)了。
3. 上下文交互存在的問(wèn)題
如此好的用戶體驗(yàn),想到做到用戶無(wú)感知,產(chǎn)品體驗(yàn)極致,是需要技術(shù)保駕護(hù)航的。但是,當(dāng)前技術(shù)上存在的不能完成產(chǎn)品全部設(shè)想的問(wèn)題,主要有三種:
「什么時(shí)候是篩選的開(kāi)始」
有些用戶不想要加入的上文也帶進(jìn)來(lái)了,導(dǎo)致用戶很難重新開(kāi)始。例如用戶在酒店頁(yè)面加入篩選條件“西安”,用戶再次詢問(wèn)天氣的時(shí)候,是回復(fù)“西安的天氣”還是“用戶當(dāng)前定位城市的天氣”。
「什么時(shí)候覆蓋了之前的條件」
同類型的結(jié)果條件會(huì)進(jìn)行覆蓋,例如9點(diǎn)以后會(huì)覆蓋之前2點(diǎn)以后的搜索結(jié)果,由于沒(méi)有顯示清楚,用戶總覺(jué)得當(dāng)前的結(jié)果并不是自己所想要的。基于以上兩個(gè)交互中存在的問(wèn)題,產(chǎn)品設(shè)計(jì)優(yōu)化建議如下。搜索結(jié)果,展示當(dāng)前結(jié)果進(jìn)行篩選的所有屬性tag,用戶可以GUI進(jìn)行刪除,每次曬出tag,按當(dāng)前的已有tag給出新的搜索結(jié)果。這樣就解決的了用戶可見(jiàn)當(dāng)前的搜索結(jié)果的理由,其次,用戶想要重新篩選或者更改篩選條件的時(shí)候,更加輕松簡(jiǎn)單。
「上本的保留什么時(shí)候是極限」
可以同時(shí)保留多個(gè)上文篩選條件,同時(shí)進(jìn)行結(jié)果的篩選,但是也有個(gè)問(wèn)題,上文多個(gè)篩選條件的保留是有范圍限制的,目前基本保留5個(gè)篩選條件,等到第六個(gè)篩選條件出現(xiàn),由于已經(jīng)超出的上文保留的篩選條件棧,會(huì)清空之前的全部棧內(nèi)數(shù)據(jù),把最新的篩選條件放入棧的第一個(gè),按當(dāng)前進(jìn)行篩選結(jié)果,并在當(dāng)前棧內(nèi)累加更多的篩選條件。
4. 產(chǎn)品上的優(yōu)化策略
- 通過(guò)搜索條件、排序條件和篩選條件來(lái)確定哪些是需要或者可以支持多輪交互的。從產(chǎn)品上定義出用戶使用的邏輯,方便用戶在體驗(yàn)中更能找到產(chǎn)品的設(shè)計(jì)宗旨邏輯。
- 回復(fù)的TTS需要加上用戶當(dāng)前的篩選條件。有些排序條件和搜索條件,產(chǎn)品經(jīng)理需要定義什么時(shí)候回復(fù)要加上,什么時(shí)候回復(fù)tts不需要加上。
- 如果是帶屏幕的設(shè)備,可以通過(guò)顯示當(dāng)前結(jié)果的篩選或者搜索tag,既可以引導(dǎo)用戶增加想要說(shuō)的條件,也可以讓用戶明白哪些條件被覆蓋掉,需要重新說(shuō)。經(jīng)過(guò)多倫以后,達(dá)到樹(shù)形結(jié)構(gòu)的最后一層,導(dǎo)致所有的篩選結(jié)果清除,用戶重復(fù)篩選或者復(fù)用上一輪的篩選條件。建議把所有的內(nèi)容都放入棧內(nèi),用戶每次新的tag入棧,向前擠掉最前面的幾個(gè)tag,只維護(hù)當(dāng)前這個(gè)動(dòng)態(tài)的固定tag的棧。
從事智能產(chǎn)品經(jīng)理已經(jīng)有小2年了,從最開(kāi)始的智能產(chǎn)品的硬件設(shè)計(jì)和綁定設(shè)計(jì),到智能軟件交互產(chǎn)品的設(shè)計(jì),一路感悟頗多,最近也是希望把自己的經(jīng)驗(yàn)記錄下來(lái)。可能存在錯(cuò)誤和理解偏頗的地方,建議大家踴躍指出,共同進(jìn)步把~
乘風(fēng)破浪會(huì)有時(shí),直掛云帆濟(jì)滄海。
本文由 @哎呀呀妖妖 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于CC0協(xié)議。
您最后提到的棧的概念應(yīng)該是隊(duì)列
很不錯(cuò)
學(xué)到老,活到老