語(yǔ)音交互:如何讓“機(jī)器”變成善解人意的“機(jī)器人”

0 評(píng)論 7613 瀏覽 22 收藏 15 分鐘

語(yǔ)音交互逐漸深入生活,本文教你如何設(shè)計(jì)一個(gè)流暢自然的對(duì)話(huà)系統(tǒng)。

隨著語(yǔ)音識(shí)別技術(shù)和自然語(yǔ)言理解技術(shù)的不斷突破,電影當(dāng)中人與計(jì)算機(jī)設(shè)備通過(guò)自然語(yǔ)言進(jìn)行交互的方式已經(jīng)成為現(xiàn)實(shí),語(yǔ)音交互的革命正席卷而來(lái),影響著我們每個(gè)人的生活。

然而,在科研技術(shù)成果向現(xiàn)實(shí)應(yīng)用場(chǎng)景轉(zhuǎn)變過(guò)程當(dāng)中(尤其是在多輪連續(xù)對(duì)話(huà)的情況下),智能設(shè)備的表現(xiàn)往往差強(qiáng)人意,很多問(wèn)題并不是依靠技術(shù)就能解決的。

于是,出現(xiàn)了語(yǔ)音對(duì)話(huà)界面設(shè)計(jì)的概念。

如今,越來(lái)越多的電子設(shè)備開(kāi)始支持通過(guò)自然語(yǔ)言/語(yǔ)音與人類(lèi)進(jìn)行交互。在人們的客廳里,辦公室里,汽車(chē)駕駛艙里都能找到語(yǔ)音交互的應(yīng)用場(chǎng)景。

新的交互方式讓人們解放了雙手,并弱化了人們集中在電子設(shè)備上的注意力,為人們提供了更加有效,更加自然,同時(shí)更加安全的人機(jī)交互體驗(yàn)。

本文筆者目前從業(yè)于一家AI初創(chuàng)公司,專(zhuān)注于智能對(duì)話(huà)類(lèi)產(chǎn)品的體驗(yàn)設(shè)計(jì)與質(zhì)量評(píng)估。經(jīng)過(guò)幾年時(shí)間的探索與學(xué)習(xí),筆者在人機(jī)對(duì)話(huà)交互設(shè)計(jì)的相關(guān)工作上略有一點(diǎn)心得,望在此與讀者交流學(xué)習(xí)。

與所有人機(jī)交互系統(tǒng)一樣,語(yǔ)音交互也需要一套規(guī)范且有效的設(shè)計(jì)方法和流程。

目前,網(wǎng)上有很多關(guān)于對(duì)話(huà)交互設(shè)計(jì)的指導(dǎo)和介紹,主要內(nèi)容基本都是出自谷歌和亞馬遜這兩家科技巨頭,國(guó)內(nèi)百度和訊飛在相關(guān)領(lǐng)域也有一定的研究。

這些規(guī)范都很有價(jià)值,非常值得我們借鑒和學(xué)習(xí)。然而,無(wú)論是谷歌還是百度,都只是針對(duì)自己企業(yè)所研發(fā)的硬件和產(chǎn)品有針對(duì)性的設(shè)計(jì)對(duì)話(huà)交互,整個(gè)行業(yè)當(dāng)中目前尚未有一個(gè)公認(rèn)的,被廣泛認(rèn)可的設(shè)計(jì)標(biāo)準(zhǔn)。

總體來(lái)說(shuō),語(yǔ)音對(duì)話(huà)交互延續(xù)了人機(jī)交互以人為本的設(shè)計(jì)原則,在不同的應(yīng)用場(chǎng)景,不同的用戶(hù)群體,以及不同的硬件形態(tài)下,都需要有針對(duì)性的進(jìn)行不同的設(shè)計(jì)。

筆者將參照部分科技巨頭提出的設(shè)計(jì)元素,結(jié)合自己的工作經(jīng)驗(yàn),為讀者整理一下對(duì)話(huà)交互設(shè)計(jì)的過(guò)程。

第一步:定義場(chǎng)景和用戶(hù)畫(huà)像

設(shè)計(jì)一個(gè)對(duì)話(huà)系統(tǒng)之前,我們首先要明確誰(shuí)是這個(gè)系統(tǒng)的用戶(hù)。

不同的用戶(hù)具備不同的知識(shí)背景和交互習(xí)慣,同時(shí)每一類(lèi)用戶(hù)都有不同的需求點(diǎn)和痛點(diǎn)。清晰的用戶(hù)定義可以幫助我們更加有針對(duì)性的設(shè)計(jì)對(duì)話(huà)的內(nèi)容和節(jié)奏。

常用的用戶(hù)定義方法包括:用戶(hù)畫(huà)像,用戶(hù)背景調(diào)查,用戶(hù)采訪(fǎng),A/B測(cè)試,使用習(xí)慣調(diào)研等。

定義場(chǎng)景和定義用戶(hù)是相輔相成的,需要關(guān)聯(lián)在一起進(jìn)行思考。

場(chǎng)景的定義主要是回答自己這樣一個(gè)問(wèn)題:我的用戶(hù)將在什么時(shí)候,什么地點(diǎn),以一個(gè)什么樣的狀態(tài)與我設(shè)計(jì)的對(duì)話(huà)系統(tǒng)進(jìn)行交互?

這當(dāng)中就涉及到了很多變量,包括時(shí)間,空間和情感觸發(fā)。

通常有效的場(chǎng)景設(shè)計(jì)需要結(jié)合深入的用戶(hù)調(diào)研和測(cè)試,設(shè)計(jì)者需要親自在特定的時(shí)間和地點(diǎn)帶著特定的情緒和期待去體驗(yàn)對(duì)話(huà)系統(tǒng)。

第二步:設(shè)計(jì)問(wèn)答對(duì)

定義清楚了用戶(hù)和場(chǎng)景之后,我們就可以開(kāi)始設(shè)計(jì)對(duì)話(huà)了。

千里之行始于足下,在設(shè)計(jì)一個(gè)對(duì)話(huà)系統(tǒng)時(shí),我們首先要設(shè)計(jì)好一個(gè)簡(jiǎn)單的問(wèn)答對(duì)。好的問(wèn)答對(duì)包括一個(gè)好的問(wèn)題和一個(gè)好的答案。

問(wèn)題的設(shè)計(jì)主要是語(yǔ)法的設(shè)計(jì)。和人類(lèi)的語(yǔ)言一樣,計(jì)算機(jī)對(duì)話(huà)系統(tǒng)也需要一套語(yǔ)法框架。我們?cè)噲D讓計(jì)算機(jī)掌握人類(lèi)的語(yǔ)言,所以,這個(gè)工作就是把人類(lèi)語(yǔ)言的語(yǔ)法重新以一個(gè)適合計(jì)算機(jī)的方式設(shè)計(jì)出來(lái)。

當(dāng)我們有一個(gè)有效的語(yǔ)法框架時(shí),就可以快速的為對(duì)話(huà)系統(tǒng)設(shè)計(jì)問(wèn)題,并覆蓋一個(gè)問(wèn)題的各種問(wèn)法。

比如當(dāng)設(shè)計(jì)一個(gè)詢(xún)問(wèn)節(jié)日假期的問(wèn)題時(shí),我們可以通過(guò)語(yǔ)法匹配的方式來(lái)實(shí)現(xiàn)。

例句:

  • 中秋節(jié)假期是哪天?
  • 中秋節(jié)假期在哪天?
  • 我想問(wèn)一下中秋節(jié)假期是哪天?
  • 中秋節(jié)假期什么時(shí)候?
  • 哪天到哪天是中秋節(jié)假期?
  • 中秋節(jié)是哪天?
  • 中秋節(jié)假期在何時(shí)呢?
  • 什么時(shí)候是中秋節(jié)假期呢?

語(yǔ)法:

  • 疑問(wèn) = 什么時(shí)候||哪天||何時(shí)
  • {前綴}{節(jié)日}假期||{介詞}{疑問(wèn)}{后綴}

回復(fù)的設(shè)計(jì)主要是話(huà)術(shù)的設(shè)計(jì)。話(huà)術(shù)的設(shè)計(jì)將會(huì)直接影響到對(duì)話(huà)系統(tǒng)的表現(xiàn)和用戶(hù)體驗(yàn)。

話(huà)術(shù)往往需要結(jié)合對(duì)話(huà)系統(tǒng)的使用場(chǎng)景與目標(biāo)用戶(hù)進(jìn)行設(shè)計(jì)。

話(huà)術(shù)設(shè)計(jì)主要有兩個(gè)原則:即內(nèi)容接近人的思維,以及讓交互者有持續(xù)聊下去的意愿。

第三步:制作對(duì)話(huà)流

對(duì)話(huà)流的設(shè)計(jì)是對(duì)話(huà)交互設(shè)計(jì)的最后一個(gè)環(huán)節(jié),也是最為重要的環(huán)節(jié)。

對(duì)話(huà)流泛指通過(guò)不同對(duì)話(huà)節(jié)點(diǎn)將多個(gè)問(wèn)答對(duì)按照一定邏輯串聯(lián)起來(lái)的流程框架。對(duì)話(huà)流往往可以解決一個(gè)具體的任務(wù),如訂機(jī)票、查天氣等。

另外,常見(jiàn)的會(huì)話(huà)類(lèi)游戲,繪本等應(yīng)用也是通過(guò)對(duì)話(huà)流的設(shè)計(jì)來(lái)實(shí)現(xiàn)的。

簡(jiǎn)單來(lái)說(shuō)就是,從一組問(wèn)答對(duì)中擴(kuò)散出多個(gè)對(duì)話(huà)節(jié)點(diǎn),再衍生新的問(wèn)答對(duì),同時(shí)部分問(wèn)答對(duì)與對(duì)話(huà)節(jié)點(diǎn)之間存在邏輯上的關(guān)聯(lián),這當(dāng)中的每一個(gè)節(jié)點(diǎn),每一層關(guān)聯(lián)都需要預(yù)先設(shè)計(jì)(下圖是筆者之前設(shè)計(jì)的游戲?qū)υ?huà)流的一小部分內(nèi)容,供參考)。

一個(gè)好的對(duì)話(huà)流設(shè)計(jì)通常具備以下特點(diǎn):自然通順,邏輯嚴(yán)謹(jǐn),引導(dǎo)清晰,簡(jiǎn)潔有效。

第四步:對(duì)話(huà)流之外的設(shè)計(jì)

在設(shè)計(jì)對(duì)話(huà)交互的時(shí)候,還需要充分考慮對(duì)話(huà)系統(tǒng)的各種極端使用情況,以及遇到錯(cuò)誤時(shí)的應(yīng)對(duì)辦法。

首先,我們需要讓用戶(hù)知道,其聊天對(duì)象是一個(gè)機(jī)器人而不是一個(gè)真實(shí)的人。

雖然很多會(huì)話(huà)交互設(shè)計(jì)都聲明,其設(shè)計(jì)的主旨就是讓人工智能可以表現(xiàn)無(wú)限接近真人(通過(guò)圖靈測(cè)試)。但是筆者認(rèn)為,在實(shí)際應(yīng)用場(chǎng)景下,也并非如此。

事實(shí)上,在效率和針對(duì)性?xún)煞矫妫斯ぶ悄芸梢员热祟?lèi)做的更好。用戶(hù)需要適應(yīng)與機(jī)器之間的對(duì)話(huà)交互方式,這必然是一種有別于用戶(hù)與其他人之間的交互。在這樣的前提下,用戶(hù)會(huì)有意無(wú)意提高對(duì)對(duì)話(huà)系統(tǒng)的包容度。

另外,比較重要的一點(diǎn)是,設(shè)計(jì)者有必要在對(duì)話(huà)流的中加入足夠的對(duì)話(huà)引導(dǎo),和內(nèi)容確認(rèn)的部分。這樣用戶(hù)就能夠清楚的知道自己可以說(shuō)什么、怎么說(shuō)。關(guān)于對(duì)話(huà)引導(dǎo)和主動(dòng)對(duì)話(huà)的相關(guān)設(shè)計(jì)網(wǎng)上以及有很多相關(guān)的文章分享,這部分筆者就不做過(guò)多描述了。

最后,設(shè)計(jì)這應(yīng)該預(yù)先想到錯(cuò)誤發(fā)生的情況,并提前設(shè)計(jì)好應(yīng)對(duì)措施。

目前在業(yè)界針對(duì)這塊的處理有一些歧義。不少人認(rèn)為當(dāng)系統(tǒng)無(wú)法識(shí)別用戶(hù)問(wèn)題時(shí)就設(shè)置一個(gè)兜底答案庫(kù)(可能是技術(shù)開(kāi)發(fā)者不愿意向用戶(hù)承認(rèn)自己的技術(shù)能力不足),通過(guò)“打馬虎眼”的方式避免這些對(duì)話(huà)內(nèi)容。

但是筆者認(rèn)為,在這種情況下,對(duì)話(huà)系統(tǒng)應(yīng)該直接向用戶(hù)道歉,并承認(rèn)自己能力的不足。從真實(shí)的體驗(yàn)效果上來(lái)看,“認(rèn)慫”可能比“打馬虎眼”更易被用戶(hù)接受。

不過(guò),單純“認(rèn)慫”肯定是不夠的。

這種情況下,筆者會(huì)在“認(rèn)慫”之后,為對(duì)話(huà)系統(tǒng)加一個(gè)問(wèn)題推薦和話(huà)題引導(dǎo)的功能,再次把主動(dòng)權(quán)抓住,將用戶(hù)重新引入一個(gè)可控狀態(tài)當(dāng)中。

第五步:驗(yàn)證和評(píng)測(cè)對(duì)話(huà)質(zhì)量

對(duì)話(huà)系統(tǒng)設(shè)計(jì)好之后,我們需要一套有效的對(duì)話(huà)能力評(píng)估系統(tǒng)來(lái)對(duì)其進(jìn)行檢測(cè)和評(píng)估。

評(píng)估結(jié)果可以幫助設(shè)計(jì)者客觀判斷對(duì)話(huà)系統(tǒng)的能力,同時(shí)還能夠橫向?qū)Ρ炔煌膶?duì)話(huà)系統(tǒng),從而找到對(duì)話(huà)系統(tǒng)的問(wèn)題和不足,針對(duì)性?xún)?yōu)化和改善對(duì)話(huà)交互的設(shè)計(jì)。

對(duì)話(huà)系統(tǒng)的評(píng)估可以從兩個(gè)方面來(lái)進(jìn)行。

  1. 一方面是對(duì)話(huà)系統(tǒng)的表現(xiàn),對(duì)話(huà)系統(tǒng)需要按照特定的指標(biāo)和維度被評(píng)估,評(píng)估結(jié)果將能夠直接反應(yīng)出對(duì)話(huà)系統(tǒng)在各個(gè)指標(biāo)上的表現(xiàn)。
  2. 另一方面是用戶(hù)的體驗(yàn)反饋,對(duì)話(huà)交互設(shè)計(jì)者應(yīng)該刻意去收集用戶(hù)在使用對(duì)話(huà)系統(tǒng)后的反饋,整理用戶(hù)的建議,并制定改進(jìn)的策略。常見(jiàn)的方法包括用戶(hù)調(diào)研,用戶(hù)采訪(fǎng),用戶(hù)行為數(shù)據(jù)跟蹤等。

為了讓整個(gè)對(duì)話(huà)設(shè)計(jì)更加完整和有效,除了基本的對(duì)話(huà)設(shè)計(jì)流程之外,我們還需要在設(shè)計(jì)前做好充足的準(zhǔn)備。同時(shí)在設(shè)計(jì)后,對(duì)整個(gè)對(duì)話(huà)系統(tǒng)將呈現(xiàn)給用戶(hù)的樣子做進(jìn)一步的思考。

設(shè)計(jì)前的準(zhǔn)備

在對(duì)話(huà)交互開(kāi)始之前,我們首先需要定義對(duì)話(huà)的內(nèi)容和展示形態(tài)。

對(duì)話(huà)內(nèi)容包括:話(huà)題的設(shè)計(jì),意圖的設(shè)計(jì),以及詞槽列表的設(shè)計(jì)。

計(jì)算機(jī)設(shè)備無(wú)法像人類(lèi)一樣,可以同時(shí)有邏輯地表達(dá)不同話(huà)題的語(yǔ)言?xún)?nèi)容。因此在制定一個(gè)對(duì)話(huà)系統(tǒng)之前,我們需要明確,被創(chuàng)建的對(duì)話(huà)系統(tǒng)將會(huì)處理什么樣的話(huà)題,以及話(huà)題當(dāng)中將包含什么樣的會(huì)話(huà)意圖。

此外,根據(jù)展示媒介的不同,對(duì)話(huà)交互中還可能會(huì)包含視覺(jué)信號(hào)、提示燈、提示聲音,以及富文本內(nèi)容。

很多人認(rèn)為這些內(nèi)容是在會(huì)話(huà)設(shè)計(jì)過(guò)程當(dāng)中逐步完善的,但是筆者認(rèn)為,這些工作對(duì)于設(shè)計(jì)一個(gè)好的人機(jī)對(duì)話(huà)交互體驗(yàn)來(lái)說(shuō)至關(guān)重要,這些內(nèi)容均需要在對(duì)話(huà)交互開(kāi)始之前就預(yù)先定義好,以便于在設(shè)計(jì)對(duì)話(huà)的時(shí)候使用。

設(shè)計(jì)后的思考

當(dāng)完成一個(gè)對(duì)話(huà)交互系統(tǒng)的設(shè)計(jì)后,我們還需要對(duì)整個(gè)對(duì)話(huà)系統(tǒng)的風(fēng)格和交互體驗(yàn)進(jìn)行設(shè)計(jì)。

單是完成一個(gè)清晰和對(duì)話(huà)流程設(shè)計(jì)是不夠的,設(shè)計(jì)者需要從一個(gè)更高的維度去看整個(gè)對(duì)話(huà)系統(tǒng),塑造對(duì)話(huà)系統(tǒng)的“性格”。就像人一樣,我們希望在設(shè)計(jì)對(duì)話(huà)系統(tǒng)的時(shí)候,也要考慮到用戶(hù)在與對(duì)話(huà)系統(tǒng)交互時(shí)的情感和感受。

當(dāng)計(jì)算機(jī)設(shè)備能夠?qū)崿F(xiàn)語(yǔ)音交互時(shí),它就不再是一個(gè)冷冰冰的“機(jī)器”,而是變成了一個(gè)富有個(gè)性的“機(jī)器人”。

理想狀態(tài)下,情感共鳴將在用戶(hù)與對(duì)話(huà)系統(tǒng)完成交互后產(chǎn)生。對(duì)話(huà)交互設(shè)計(jì)的最后一步是不斷通過(guò)評(píng)測(cè)與反饋,反復(fù)塑造對(duì)話(huà)系統(tǒng)背后的角色(avatar)。

這也就意味著,在適當(dāng)?shù)臅r(shí)候,筆者會(huì)為了讓對(duì)話(huà)系統(tǒng)保持回話(huà)風(fēng)格的一致性,而放棄部分對(duì)每一句問(wèn)答內(nèi)容質(zhì)量的堅(jiān)持,以犧牲單輪對(duì)話(huà)質(zhì)量的代價(jià)來(lái)更好地塑造整個(gè)對(duì)話(huà)系統(tǒng)的“性格”。

本文介紹了對(duì)話(huà)交互設(shè)計(jì)的基本概念、重要原則與實(shí)踐環(huán)節(jié),幫助讀者理清對(duì)話(huà)設(shè)計(jì)工作的大致流程和內(nèi)容。

在未來(lái),語(yǔ)音交互并不會(huì)代替現(xiàn)有的交互形式,而是與現(xiàn)有的交互形式相疊加,為人們的生活與交互體驗(yàn)帶來(lái)更多的可能性。

在可預(yù)見(jiàn)的未來(lái)里,人們將與電子設(shè)備更緊密的結(jié)合。放眼當(dāng)下,最新的科研成果正在不斷的被開(kāi)源和共享,應(yīng)用技術(shù)的門(mén)檻也正變得越來(lái)越低。技術(shù)的領(lǐng)先性已經(jīng)不再是行業(yè)的壁壘,只有應(yīng)用體驗(yàn)的差異化才是企業(yè)與產(chǎn)品的突破口。

好的對(duì)話(huà)交互設(shè)計(jì),必將帶來(lái)好的體驗(yàn),而好的體驗(yàn)必將把成功帶給行業(yè)和企業(yè)。

 

本文由 @單師傅?原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自 Unsplash ,基于 CC0 協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!