針對“語音助手”類產品,淺談對話式交互設計

1 評論 8058 瀏覽 73 收藏 17 分鐘

今天給大家分享一篇針對“語音助手”類產品的對話式交互進行討論的文章,希望帶給你更多幫助。

說到語音設計大家腦海里會浮現(xiàn)出各種科幻場景,其實語音設計離我們并不遠,可能我們太過于熟悉,以至于忽視它的存在。

剛好自己對這一領域充滿好奇,就以Siri、天貓精靈和小愛同學這三款產品體驗為本,結合《語音用戶界面設計》這本書的內容,寫了這篇文章。

本文主要針對“語音助手”類產品的對話式交互進行討論。

一、前世今生

看看這段話:“業(yè)務查詢請按1,手機充值請按2”。每次撥打10086時,都能聽到這樣的回答。

這種語音交互形式叫“交互式語音應答(Interactive Voice Response,IVR)”,這也是語音設計的第一個階段,起源于20世紀90年代。

還有我們熟悉的電話訂票,電話股票交易等,都屬于這個階段的產物。

這個階段的語音設計,為復雜的功能提供了自助的語音處理方案。語音交互的內容已經(jīng)提前設定好,用戶帶著疑問作出特定的回答,語音系統(tǒng)就會給出指定的答案。

接下來的時代,各種智能設備普及了,也誕生了Siri、Google Now等語音助手,以及這幾年挺火的智能音箱。

如:小愛同學、天貓精靈和騰訊聽聽等,幾乎所有的行業(yè)巨頭都參與這場盛宴,這是語音設計的第二個階段,也是目前所處的階段。

二、設計核心點

語音交互是一種包含豐富信息的互動形式,在設計語音交互時,可以從對話模式、引導式回答、自然溝通作為設計的核心考慮點。

1. 對話模式

談語音設計就離不開討論語言溝通,在日常生活中,人們之間的對話溝通從語速、用詞和前后對話的內容等,就可以讓對方了解到說話者表達的內容和情緒的變化。

(1)單輪對話

單輪對話是指對話內容不包含情景,沒有關聯(lián)上下文內容。這種對話模式導致語音交互更偏向于簡短的操作任務,過于復雜的操作任務,則需要分解成簡短的口令。

比如:“播放陳奕迅的歌”大多數(shù)語音系統(tǒng)是可以識別的;而如果說“介紹下陳奕迅”,然后再說“播放他的代表歌曲”,這種需要上下文關聯(lián)、復雜的對話模式,現(xiàn)階段大多數(shù)語音助手是無法識別的。

淺談語音設計

(2)連續(xù)對話

語音交互的對話模式還有另一種類型,它們搭載了自然語音處理系統(tǒng),使用場景也打破單輪對話的限制,它們就是聊天機器人,也叫伴侶式機器人。

它們定位更偏向模擬人類對話,研究人機對話的領域。相信未來語音助手也可以結合對話式聊天模式,實現(xiàn)自然聊天并準確的進行功能操作。

比如:小米的小愛同學,有一個隱藏的技能“打開閑聊”,開啟后可以進行連續(xù)對話模式。微軟小冰也是聊天機器人方面比較成熟的產品之一。

淺談語音設計

2. 引導式回答

在單輪對話模式的限制中,需要特別留意語音系統(tǒng)的回答,引導用戶正確使用簡短的語音對話。

(1)確認模式

語音交互的確認模式,可以分為顯性確認與隱性確認兩種類型。

顯性確認,是一種強制用戶確認的方式。主要用于涉及錢財或者會帶來嚴重影響的操作行為中。

當用戶說幫我充個話費時,這里涉及錢財支出,則語音系統(tǒng)應該重復一次即將執(zhí)行的命令,用戶確認答復后,平臺再進行對應的操作。

比如:讓天貓精靈幫忙充話費,天貓精靈在進行支付前,會讓用戶確認一次充值內容,當用戶給予肯定回答后,天貓精靈才會進行充值支付操作。

淺談語音設計

隱性確認,是根據(jù)識別的可信度進行弱確認的方式。

系統(tǒng)對語音內容進行打分評級,當可信度等級為高時,確認是可信的命令,直接執(zhí)行對應的操作。無需用戶再進行確認,或重復一次反饋結果。

比如:對Siri說“打開支付寶付款碼”,Siri會直接打開支付寶軟件的付款碼頁面,并在界面弱提示正在打開支付寶。這個過程不需要用戶再去確認,因為這是一個可信的操作。

當可信度等級為中等時,系統(tǒng)執(zhí)行對應的操作后,還需要對操作進行隱性確認,讓用戶知道為什么會執(zhí)行當前的操作。

比如:在晚上對天貓精靈說“早上好”時,天貓精靈會播放晚間資訊,并告知現(xiàn)在是晚上,明天上午說“早上好”可以播放資訊等。

如下圖所示(晚間資訊通過語音播放,界面沒有展示文本)。

淺談語音設計

當可信度等級為低時,系統(tǒng)應該明確告知用戶,無法識別有效的語音內容。

總的來說,隱性確認是讓用戶知道為什么會這樣操作,用戶收到語音系統(tǒng)的反饋就行。顯性確認則是需要用戶明確確認的過程。

(2)錯誤引導

現(xiàn)階段語音系統(tǒng)無法避免錯誤識別或無法識別的情況。

出錯不要緊,如何改善機器的錯誤反饋才是重點。

當機器無法識別或識別的內容屬于低可信度時,機器需要引導用戶去用正確的語句結構來對話,千萬不要自作聰明地嘗試回答。

比如:跟Siri對話時,如果Siri沒有檢測到語音,則會通過界面,給予文字反饋;超時沒說話時,則會展示“你可以這樣問我”的引導頁。

當遇到Siri無法回答的問題時,則會給予簡單的文字引導。

淺談語音設計

跟小愛同學對話時,經(jīng)常會遇到跑題的情況。這種過度自信的回答很容易給用戶帶來負面感受。

淺談語音設計

(3)語音之外的反饋

對于語音助手類產品來說,語音是一種交互方式,但不是唯一的。產品一般會搭配硬件和軟件來使用。

所以除了語音之外,不要忽略其他反饋的渠道。

同時語音交互有自身的優(yōu)勢,可以不受物理位置的影響,可以簡單快捷的上手學習,不需要去學習界面的操作。但是界面交互也有自身優(yōu)勢,如展示列表類內容等復雜信息。

比如:讓小愛同學播放歌曲時,小愛同學會通過語音形式播放對應的歌,但也會在界面中靜默展示播放列表。

淺談語音設計

除了界面的輔助反饋外,也不要忘記物理反饋。在喚醒小愛同學和天貓精靈時,這兩個音箱都會亮起燈光,用于示意已經(jīng)喚醒設備,正在接收語音內容中。

淺談語音設計

3. 自然溝通

對于自然溝通的語音設計來說,可以嘗試以下幾個方向。

(1)個性化

每個人都有自己的說話方式,跟機器進行對話也會帶著自己的習慣。每個語音系統(tǒng)也可以有自己的個性,這是設計者可以考慮塑造的機器人格。

比如:分別問天貓精靈、小愛同學、Siri“你喜歡什么顏色”,可以得到三種不同類型的回答。

如圖可以看出Siri、天貓精靈和小愛同學都有自己的性格差異。

淺談語音設計

當調戲Siri和小愛同學,不斷重復它們的回答時。

Siri會帶有情緒地說“奇怪,難道這里有回音”。而小愛同學會帶有情緒地說“別鬧,我才是小愛”。

淺談語音設計

甚至問Siri圓周率是多少時,它還會加上一些“無意義”的語氣詞,如“呼氣!”。

可惜的是,Siri并不是真正模擬呼氣的過程,而是用平緩的語氣念出了“呼氣”兩個字,這也許是出于對“恐怖谷理論”的擔憂吧。

淺談語音設計

(2)本土文化

本土文化也是自然溝通的考慮因素之一,不同文化所用的語言不同,導致在選詞造句上都存在很大的差異。

像日常溝通中,人們會用上諺語來表達自己想描述的內容。在語音助手類產品中,Siri是做得比較好的。

比如:當遇到英文單詞時,Siri會用中文讀出來。說謝謝時,Siri會引用“一家人不說兩家話”這樣的地方用語來回答。

淺談語音設計

(3)語意分析

對于實現(xiàn)自然溝通來說,語意分析算是重點,也是難點之一。在很多語言中,同一個詞在不同場景下說出來,經(jīng)常表達著不同的含義。

像“晚上好”,我們也可以用“晚安”來表達?!霸缟虾谩鄙踔量梢允÷詾橐粋€“早”字,在語音設計的過程中,建立用戶詞庫以及關鍵詞歸類,可以更自然的分析用戶的語意。

通過通配符和邏輯表達式,系統(tǒng)可以更好的識別含義相近的語句。

將“電腦慢”這樣的關鍵詞定義為通配符,并將“名詞+形容詞”的語句表達式定義為歸為同一類邏輯。系統(tǒng)就可以認為“電腦慢”、“電腦很慢”、“電腦真的很慢”等等相近含義的語句歸為同一含義。這有點像微信公眾號的關鍵詞自動回復一樣。

通過建立詞庫的形式,也能實現(xiàn)更自然的語意分析。

詞庫有兩種建立的方案,一種是將整理歸納好的詞庫,提前內置到語音助手中。另一種則是提供自定義功能,讓用戶在日常使用中,不斷去教育,修正語音助手的詞庫。這就像輸入法的詞庫設計一樣。

比如:對天貓精靈說關閉、睡覺、閉嘴、安靜等,都可以觸發(fā)設備的關閉操作。而小愛同學有“小愛訓練”,用戶可以自定義關鍵詞并定義該關鍵詞要執(zhí)行的操作。

這是主動去教育語音助手,形成用戶獨有詞庫的方式。

淺談語音設計

通過分析語句中的通配符,未來還有很多可能性。

當人感覺到生氣時,常用命令式的對話,同時會用上情緒用詞,通過這些詞匯,語音助手可以更精確的識別使用者的情緒變化,做出更自然的回復。

但在準確率還無法保證的情況下,謹慎把語音助手做得過分“智能”,因為識別錯誤率過高,更容易引起用戶的負面情緒。

(4)過度關懷

想象下,你跟朋友說“晚安”,朋友回復你“晚安,做個好夢哦。明天深圳的天氣是晴轉多云……”

可能偶爾一兩次,還會覺得這位朋友好貼心,睡覺前還告訴你明天的天氣。但長期接觸后,就會覺得這位朋友好啰嗦,這個故事來源于小愛同學的晚安反饋,每次說晚安都過度關懷用戶。

對于語音助手來說,雖然趨勢是擬人化,但設計者要把握擬人的程度,語音助手自身提供的語音反饋應該是簡明的單一操作。復雜的組合操作應該由輔助屏幕來呈現(xiàn),或是由用戶自定義語音任務來觸發(fā)。

三、總結

語音交互相對界面交互,還存在一些缺點:在公共場景使用會有點尷尬。有些用戶存在心理障礙,不適應跟機器對話。豐富的信息內容也不合適單獨用語音來表示。

雖然存在這些缺點,但是語音交互還是會成為未來主流交互方式之一。它可以釋放雙手,學習門檻也更低,用戶直覺的說出操作就行,不需要去學習界面交互。更具有同理心,通過語氣、音量、語調、語速等就可以獲知使用者心情的變化。

最后,在語音交互的設計中,我們可以遵循一些原則:

  1. 保護用戶的隱私。
  2. 保持自然的溝通。
  3. 保持簡短的回復。
  4. 提供明確的反饋。
  5. 對識別內容的支持修正。
  6. 了解語音識別的局限性。

 

作者:mufly

來源:https://www.ui.cn/detail/439773.html

本文由 @mufly 授權發(fā)布于人人都是產品經(jīng)理。未經(jīng)許可,禁止轉載。

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內容,請關注人人都是產品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 讀了您的文章對我很有幫助 謝謝

    回復