語音交互:如何讓“機(jī)器”變成善解人意的“機(jī)器人”

0 評論 7661 瀏覽 22 收藏 15 分鐘

語音交互逐漸深入生活,本文教你如何設(shè)計(jì)一個流暢自然的對話系統(tǒng)。

隨著語音識別技術(shù)和自然語言理解技術(shù)的不斷突破,電影當(dāng)中人與計(jì)算機(jī)設(shè)備通過自然語言進(jìn)行交互的方式已經(jīng)成為現(xiàn)實(shí),語音交互的革命正席卷而來,影響著我們每個人的生活。

然而,在科研技術(shù)成果向現(xiàn)實(shí)應(yīng)用場景轉(zhuǎn)變過程當(dāng)中(尤其是在多輪連續(xù)對話的情況下),智能設(shè)備的表現(xiàn)往往差強(qiáng)人意,很多問題并不是依靠技術(shù)就能解決的。

于是,出現(xiàn)了語音對話界面設(shè)計(jì)的概念。

如今,越來越多的電子設(shè)備開始支持通過自然語言/語音與人類進(jìn)行交互。在人們的客廳里,辦公室里,汽車駕駛艙里都能找到語音交互的應(yīng)用場景。

新的交互方式讓人們解放了雙手,并弱化了人們集中在電子設(shè)備上的注意力,為人們提供了更加有效,更加自然,同時更加安全的人機(jī)交互體驗(yàn)。

本文筆者目前從業(yè)于一家AI初創(chuàng)公司,專注于智能對話類產(chǎn)品的體驗(yàn)設(shè)計(jì)與質(zhì)量評估。經(jīng)過幾年時間的探索與學(xué)習(xí),筆者在人機(jī)對話交互設(shè)計(jì)的相關(guān)工作上略有一點(diǎn)心得,望在此與讀者交流學(xué)習(xí)。

與所有人機(jī)交互系統(tǒng)一樣,語音交互也需要一套規(guī)范且有效的設(shè)計(jì)方法和流程。

目前,網(wǎng)上有很多關(guān)于對話交互設(shè)計(jì)的指導(dǎo)和介紹,主要內(nèi)容基本都是出自谷歌和亞馬遜這兩家科技巨頭,國內(nèi)百度和訊飛在相關(guān)領(lǐng)域也有一定的研究。

這些規(guī)范都很有價值,非常值得我們借鑒和學(xué)習(xí)。然而,無論是谷歌還是百度,都只是針對自己企業(yè)所研發(fā)的硬件和產(chǎn)品有針對性的設(shè)計(jì)對話交互,整個行業(yè)當(dāng)中目前尚未有一個公認(rèn)的,被廣泛認(rèn)可的設(shè)計(jì)標(biāo)準(zhǔn)。

總體來說,語音對話交互延續(xù)了人機(jī)交互以人為本的設(shè)計(jì)原則,在不同的應(yīng)用場景,不同的用戶群體,以及不同的硬件形態(tài)下,都需要有針對性的進(jìn)行不同的設(shè)計(jì)。

筆者將參照部分科技巨頭提出的設(shè)計(jì)元素,結(jié)合自己的工作經(jīng)驗(yàn),為讀者整理一下對話交互設(shè)計(jì)的過程。

第一步:定義場景和用戶畫像

設(shè)計(jì)一個對話系統(tǒng)之前,我們首先要明確誰是這個系統(tǒng)的用戶。

不同的用戶具備不同的知識背景和交互習(xí)慣,同時每一類用戶都有不同的需求點(diǎn)和痛點(diǎn)。清晰的用戶定義可以幫助我們更加有針對性的設(shè)計(jì)對話的內(nèi)容和節(jié)奏。

常用的用戶定義方法包括:用戶畫像,用戶背景調(diào)查,用戶采訪,A/B測試,使用習(xí)慣調(diào)研等。

定義場景和定義用戶是相輔相成的,需要關(guān)聯(lián)在一起進(jìn)行思考。

場景的定義主要是回答自己這樣一個問題:我的用戶將在什么時候,什么地點(diǎn),以一個什么樣的狀態(tài)與我設(shè)計(jì)的對話系統(tǒng)進(jìn)行交互?

這當(dāng)中就涉及到了很多變量,包括時間,空間和情感觸發(fā)。

通常有效的場景設(shè)計(jì)需要結(jié)合深入的用戶調(diào)研和測試,設(shè)計(jì)者需要親自在特定的時間和地點(diǎn)帶著特定的情緒和期待去體驗(yàn)對話系統(tǒng)。

第二步:設(shè)計(jì)問答對

定義清楚了用戶和場景之后,我們就可以開始設(shè)計(jì)對話了。

千里之行始于足下,在設(shè)計(jì)一個對話系統(tǒng)時,我們首先要設(shè)計(jì)好一個簡單的問答對。好的問答對包括一個好的問題和一個好的答案。

問題的設(shè)計(jì)主要是語法的設(shè)計(jì)。和人類的語言一樣,計(jì)算機(jī)對話系統(tǒng)也需要一套語法框架。我們試圖讓計(jì)算機(jī)掌握人類的語言,所以,這個工作就是把人類語言的語法重新以一個適合計(jì)算機(jī)的方式設(shè)計(jì)出來。

當(dāng)我們有一個有效的語法框架時,就可以快速的為對話系統(tǒng)設(shè)計(jì)問題,并覆蓋一個問題的各種問法。

比如當(dāng)設(shè)計(jì)一個詢問節(jié)日假期的問題時,我們可以通過語法匹配的方式來實(shí)現(xiàn)。

例句:

  • 中秋節(jié)假期是哪天?
  • 中秋節(jié)假期在哪天?
  • 我想問一下中秋節(jié)假期是哪天?
  • 中秋節(jié)假期什么時候?
  • 哪天到哪天是中秋節(jié)假期?
  • 中秋節(jié)是哪天?
  • 中秋節(jié)假期在何時呢?
  • 什么時候是中秋節(jié)假期呢?

語法:

  • 疑問 = 什么時候||哪天||何時
  • {前綴}{節(jié)日}假期||{介詞}{疑問}{后綴}

回復(fù)的設(shè)計(jì)主要是話術(shù)的設(shè)計(jì)。話術(shù)的設(shè)計(jì)將會直接影響到對話系統(tǒng)的表現(xiàn)和用戶體驗(yàn)。

話術(shù)往往需要結(jié)合對話系統(tǒng)的使用場景與目標(biāo)用戶進(jìn)行設(shè)計(jì)。

話術(shù)設(shè)計(jì)主要有兩個原則:即內(nèi)容接近人的思維,以及讓交互者有持續(xù)聊下去的意愿。

第三步:制作對話流

對話流的設(shè)計(jì)是對話交互設(shè)計(jì)的最后一個環(huán)節(jié),也是最為重要的環(huán)節(jié)。

對話流泛指通過不同對話節(jié)點(diǎn)將多個問答對按照一定邏輯串聯(lián)起來的流程框架。對話流往往可以解決一個具體的任務(wù),如訂機(jī)票、查天氣等。

另外,常見的會話類游戲,繪本等應(yīng)用也是通過對話流的設(shè)計(jì)來實(shí)現(xiàn)的。

簡單來說就是,從一組問答對中擴(kuò)散出多個對話節(jié)點(diǎn),再衍生新的問答對,同時部分問答對與對話節(jié)點(diǎn)之間存在邏輯上的關(guān)聯(lián),這當(dāng)中的每一個節(jié)點(diǎn),每一層關(guān)聯(lián)都需要預(yù)先設(shè)計(jì)(下圖是筆者之前設(shè)計(jì)的游戲?qū)υ捔鞯囊恍〔糠謨?nèi)容,供參考)。

一個好的對話流設(shè)計(jì)通常具備以下特點(diǎn):自然通順,邏輯嚴(yán)謹(jǐn),引導(dǎo)清晰,簡潔有效。

第四步:對話流之外的設(shè)計(jì)

在設(shè)計(jì)對話交互的時候,還需要充分考慮對話系統(tǒng)的各種極端使用情況,以及遇到錯誤時的應(yīng)對辦法。

首先,我們需要讓用戶知道,其聊天對象是一個機(jī)器人而不是一個真實(shí)的人。

雖然很多會話交互設(shè)計(jì)都聲明,其設(shè)計(jì)的主旨就是讓人工智能可以表現(xiàn)無限接近真人(通過圖靈測試)。但是筆者認(rèn)為,在實(shí)際應(yīng)用場景下,也并非如此。

事實(shí)上,在效率和針對性兩方面,人工智能可以比人類做的更好。用戶需要適應(yīng)與機(jī)器之間的對話交互方式,這必然是一種有別于用戶與其他人之間的交互。在這樣的前提下,用戶會有意無意提高對對話系統(tǒng)的包容度。

另外,比較重要的一點(diǎn)是,設(shè)計(jì)者有必要在對話流的中加入足夠的對話引導(dǎo),和內(nèi)容確認(rèn)的部分。這樣用戶就能夠清楚的知道自己可以說什么、怎么說。關(guān)于對話引導(dǎo)和主動對話的相關(guān)設(shè)計(jì)網(wǎng)上以及有很多相關(guān)的文章分享,這部分筆者就不做過多描述了。

最后,設(shè)計(jì)這應(yīng)該預(yù)先想到錯誤發(fā)生的情況,并提前設(shè)計(jì)好應(yīng)對措施。

目前在業(yè)界針對這塊的處理有一些歧義。不少人認(rèn)為當(dāng)系統(tǒng)無法識別用戶問題時就設(shè)置一個兜底答案庫(可能是技術(shù)開發(fā)者不愿意向用戶承認(rèn)自己的技術(shù)能力不足),通過“打馬虎眼”的方式避免這些對話內(nèi)容。

但是筆者認(rèn)為,在這種情況下,對話系統(tǒng)應(yīng)該直接向用戶道歉,并承認(rèn)自己能力的不足。從真實(shí)的體驗(yàn)效果上來看,“認(rèn)慫”可能比“打馬虎眼”更易被用戶接受。

不過,單純“認(rèn)慫”肯定是不夠的。

這種情況下,筆者會在“認(rèn)慫”之后,為對話系統(tǒng)加一個問題推薦和話題引導(dǎo)的功能,再次把主動權(quán)抓住,將用戶重新引入一個可控狀態(tài)當(dāng)中。

第五步:驗(yàn)證和評測對話質(zhì)量

對話系統(tǒng)設(shè)計(jì)好之后,我們需要一套有效的對話能力評估系統(tǒng)來對其進(jìn)行檢測和評估。

評估結(jié)果可以幫助設(shè)計(jì)者客觀判斷對話系統(tǒng)的能力,同時還能夠橫向?qū)Ρ炔煌膶υ捪到y(tǒng),從而找到對話系統(tǒng)的問題和不足,針對性優(yōu)化和改善對話交互的設(shè)計(jì)。

對話系統(tǒng)的評估可以從兩個方面來進(jìn)行。

  1. 一方面是對話系統(tǒng)的表現(xiàn),對話系統(tǒng)需要按照特定的指標(biāo)和維度被評估,評估結(jié)果將能夠直接反應(yīng)出對話系統(tǒng)在各個指標(biāo)上的表現(xiàn)。
  2. 另一方面是用戶的體驗(yàn)反饋,對話交互設(shè)計(jì)者應(yīng)該刻意去收集用戶在使用對話系統(tǒng)后的反饋,整理用戶的建議,并制定改進(jìn)的策略。常見的方法包括用戶調(diào)研,用戶采訪,用戶行為數(shù)據(jù)跟蹤等。

為了讓整個對話設(shè)計(jì)更加完整和有效,除了基本的對話設(shè)計(jì)流程之外,我們還需要在設(shè)計(jì)前做好充足的準(zhǔn)備。同時在設(shè)計(jì)后,對整個對話系統(tǒng)將呈現(xiàn)給用戶的樣子做進(jìn)一步的思考。

設(shè)計(jì)前的準(zhǔn)備

在對話交互開始之前,我們首先需要定義對話的內(nèi)容和展示形態(tài)。

對話內(nèi)容包括:話題的設(shè)計(jì),意圖的設(shè)計(jì),以及詞槽列表的設(shè)計(jì)。

計(jì)算機(jī)設(shè)備無法像人類一樣,可以同時有邏輯地表達(dá)不同話題的語言內(nèi)容。因此在制定一個對話系統(tǒng)之前,我們需要明確,被創(chuàng)建的對話系統(tǒng)將會處理什么樣的話題,以及話題當(dāng)中將包含什么樣的會話意圖。

此外,根據(jù)展示媒介的不同,對話交互中還可能會包含視覺信號、提示燈、提示聲音,以及富文本內(nèi)容。

很多人認(rèn)為這些內(nèi)容是在會話設(shè)計(jì)過程當(dāng)中逐步完善的,但是筆者認(rèn)為,這些工作對于設(shè)計(jì)一個好的人機(jī)對話交互體驗(yàn)來說至關(guān)重要,這些內(nèi)容均需要在對話交互開始之前就預(yù)先定義好,以便于在設(shè)計(jì)對話的時候使用。

設(shè)計(jì)后的思考

當(dāng)完成一個對話交互系統(tǒng)的設(shè)計(jì)后,我們還需要對整個對話系統(tǒng)的風(fēng)格和交互體驗(yàn)進(jìn)行設(shè)計(jì)。

單是完成一個清晰和對話流程設(shè)計(jì)是不夠的,設(shè)計(jì)者需要從一個更高的維度去看整個對話系統(tǒng),塑造對話系統(tǒng)的“性格”。就像人一樣,我們希望在設(shè)計(jì)對話系統(tǒng)的時候,也要考慮到用戶在與對話系統(tǒng)交互時的情感和感受。

當(dāng)計(jì)算機(jī)設(shè)備能夠?qū)崿F(xiàn)語音交互時,它就不再是一個冷冰冰的“機(jī)器”,而是變成了一個富有個性的“機(jī)器人”。

理想狀態(tài)下,情感共鳴將在用戶與對話系統(tǒng)完成交互后產(chǎn)生。對話交互設(shè)計(jì)的最后一步是不斷通過評測與反饋,反復(fù)塑造對話系統(tǒng)背后的角色(avatar)。

這也就意味著,在適當(dāng)?shù)臅r候,筆者會為了讓對話系統(tǒng)保持回話風(fēng)格的一致性,而放棄部分對每一句問答內(nèi)容質(zhì)量的堅(jiān)持,以犧牲單輪對話質(zhì)量的代價來更好地塑造整個對話系統(tǒng)的“性格”。

本文介紹了對話交互設(shè)計(jì)的基本概念、重要原則與實(shí)踐環(huán)節(jié),幫助讀者理清對話設(shè)計(jì)工作的大致流程和內(nèi)容。

在未來,語音交互并不會代替現(xiàn)有的交互形式,而是與現(xiàn)有的交互形式相疊加,為人們的生活與交互體驗(yàn)帶來更多的可能性。

在可預(yù)見的未來里,人們將與電子設(shè)備更緊密的結(jié)合。放眼當(dāng)下,最新的科研成果正在不斷的被開源和共享,應(yīng)用技術(shù)的門檻也正變得越來越低。技術(shù)的領(lǐng)先性已經(jīng)不再是行業(yè)的壁壘,只有應(yīng)用體驗(yàn)的差異化才是企業(yè)與產(chǎn)品的突破口。

好的對話交互設(shè)計(jì),必將帶來好的體驗(yàn),而好的體驗(yàn)必將把成功帶給行業(yè)和企業(yè)。

 

本文由 @單師傅?原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash ,基于 CC0 協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!