譯文|語音助手的替代:語音用戶界面(VUI)

1 評論 4568 瀏覽 20 收藏 21 分鐘

“語音助手”這一形式已經十分常見,它通??梢曰卮鹩脩舻哪承﹩栴},并為用戶成功地答疑解惑。不過,語音助手雖然可以解決某些用戶任務,但當任務的繁瑣程度升高時,語音助手可發(fā)揮的余地便會受限。那么,可以用什么樣的方式,來解決語音助手所存在的問題呢?

前言:語音助手是目前最流行的語音用戶界面用例。然而,由于語音助理通過與用戶交談來提供反饋,因此語音助手只能解決簡單的用戶任務,例如設置鬧鐘或播放音樂。為了讓語音用戶界面真正取得突破,給用戶的反饋必須是可視化的,而不是聽覺的。

對大多數人來說,當想到語音用戶界面時,首先想到的是語音助手,如Siri、Amazon Alexa或谷歌Assistant。事實上,語音助手是大多數人使用語音與計算機系統交互的唯一環(huán)境。

雖然語音助手將語音用戶界面帶到了主流,但助理范式不是使用、設計和創(chuàng)建語音用戶界面的唯一方式,甚至不是最好的方式。

在本文中,筆者將討論語音助手所面臨的問題,并提出一種新的語音用戶界面方法,我稱之為直接語音交互。

一、語音助手是基于語音的聊天機器人

語音助手是一種使用自然語言代替圖標和菜單作為用戶界面的軟件。語音助手通常回答用戶的問題,并積極主動地為用戶提供幫助。

語音助手與簡單直接的處理事務和指令不同,而是模仿人類對話,并雙向使用自然語言作為交互模式,這意味著它既接受用戶的輸入,又通過使用自然語言向用戶回答。

第一批助手是基于對話的問答系統。一個早期的例子是微軟的Clippy,它糟糕地試圖幫助微軟Office的用戶,根據它認為用戶想要完成的任務給出指令。而如今,助手范式的一個典型用例是聊天機器人,通常用于聊天討論中擔任客服。

另一方面,語音助手是使用語音而不是打字和文本的聊天機器人。用戶的輸入不是選擇或文本,而是語音,系統的響應也是發(fā)聲朗讀出來。這些助手可以是通用助手,如谷歌助手或Alexa,可以合理地回答許多問題,也可以是為特殊目的而構建的定制助理,如快餐訂購。

盡管用戶的輸入通常只有一兩個詞,并且可以作為選擇選項而不是實際文本呈現,但隨著技術的發(fā)展,人機對話將更加開放和復雜。聊天機器人和語音助手的第一個特性是使用自然語言以及對話風格,而不是典型的移動應用程序或網站用戶體驗的圖標、菜單和交互風格。

自然語言反應的第二個決定性特征是表象人格的錯覺。系統使用的語氣、質量和語言定義了語音助手的體驗、同理心和服務敏感性的錯覺,以及它的人格角色。良好的助理體驗的想法就像與一個真人打交道

由于語音是我們最自然的交流方式,這聽起來可能很棒,但使用自然語言響應有兩個主要問題。其中一個問題與計算機如何模仿人類有關,可能會在未來隨著對話式人工智能技術的發(fā)展得到解決,但人類大腦如何處理信息的問題是一個人類問題,在可預見的未來是無法解決的。下面讓我們來看看這些問題。

二、自然語言響應的兩個問題

語音用戶界面當然是使用語音作為一種方式的用戶界面。但語音模式可用于兩個方向:從用戶輸入信息和從系統向用戶輸出信息。例如,一些電梯在用戶按下按鈕后使用語音合成來確認用戶選擇。我們稍后將討論僅使用語音輸入信息的語音用戶界面,并使用傳統的圖形用戶界面將信息顯示回饋給用戶。

另一方面,語音助手使用語音進行輸入和輸出。這種方法有兩個主要問題:

問題1:模仿人類失敗

作為人類,我們有一種天生的傾向,將類似人類的特征歸因于非人類的物體。我們在飄過的云朵中看到一個人的容貌,或者看著一塊三明治,它似乎在對我們笑。這被稱為擬人化。

這種現象也適用于語音助手,它是由他們的自然語言反應觸發(fā)的。雖然圖形用戶界面可以構建得有點中性,但人類不可能不開始思考某人的聲音是屬于年輕人還是老年人,或者他們是男性還是女性。因此,用戶幾乎開始認為助理確實是人類。

然而,我們人類非常擅長發(fā)現假貨。奇怪的是,越接近人類的東西,這些微小的偏差就越開始困擾我們。對于那些試圖變得像人類但卻無法達到人類標準的東西,人們會有一種毛骨悚然的感覺。在機器人和計算機動畫中,這被稱為“恐怖谷效應”。

我們把語音助手做得越好、越人性化,當出現問題時,用戶體驗就會越令人毛骨悚然、令人失望。每個嘗試過語音助手的人可能都無意中遇到過這樣的問題: 回答一些讓人感覺愚蠢甚至粗魯的問題。

語音助手的恐怖谷效應給助手的用戶體驗帶來了一個難以克服的質量問題。事實上,圖靈測試(以著名數學家艾倫·圖靈的名字命名)通過的條件是,當人類評估者展示兩個代理之間的對話時,不能區(qū)分哪個是機器,哪個是人。到目前為止,從未有人工智能通過。

這意味著,助手范式為類人服務體驗設定了一個永遠無法實現的承諾,用戶肯定會感到失望。成功的體驗只會建立最終的失望,因為用戶開始信任他們的類人助手。

問題2:順序和緩慢的相互作用

語音助理的第二個問題是,自然語言響應的回合制性質導致交互延遲。這得歸因于我們的大腦處理信息的方式。

大腦中的信息處理。(資料來源:彭聃齡《普通心理學》)

我們的大腦中有兩種類型的數據處理系統:

  • 加工處理說話的語言系統
  • 專門加工處理視覺和空間信息的視覺空間系統。

這兩個系統可以并行運行,但兩個系統一次只處理一件事。這就是為什么你可以一邊說話一邊開車,但你不能一邊發(fā)短信一邊開車,因為這兩種活動都會發(fā)生在視覺空間系統中。

同樣,當你和語音助手交談時,語音助手需要保持安靜,反之亦然。這創(chuàng)造了一種回合制的對話,其中另一部分總是完全被動的。

然而,假想一個你想和朋友討論的難題。你們可能會面對面討論,而不是通過電話討論,對嗎?這是因為在面對面的對話中,我們使用非語言溝通來向對話伙伴提供實時的視覺反饋。這創(chuàng)建了一個雙向信息交換循環(huán),并使雙方能夠同時積極參與對話。

語音助手不會提供實時的視覺反饋。他們依靠一種稱為終點測定的技術來決定用戶何時停止說話,并在此之后回復。當他們回復時,他們不會同時接受用戶的任何輸入。體驗完全是單向和回合制的。

雙向實時面對面的對話,雙方可以立即對視覺和語言信號做出反應。這利用了人類大腦的不同信息處理系統,使對話變得更加順暢和高效。

語音助手卡在單向模式下,因為他們同時使用自然語言作為輸入和輸出通道。雖然語音輸入的速度是打字輸入的四倍,但處理消化速度明顯慢于閱讀。由于信息需要按順序處理,所以這種方法只適用于簡單的命令,如“關燈”,這些命令不需要助手的太多輸出。

在前文,我承諾討論僅使用語音輸入用戶數據的語音用戶界面。這種語音用戶界面受益于語音用戶界面的最佳部分——自然、快速和易于使用——但不受恐怖谷和順序交互的影響。

讓我們考慮一下這個替代方案。

三、語音助手的更好選擇

克服語音助手中這些問題的解決方案是放棄自然語言響應,代之以實時視覺反饋。將反饋切換到視覺,將使用戶能夠同時提供和獲得反饋。這將使應用程序能夠在不中斷用戶的情況下做出反應,并啟用雙向信息流。由于信息流是雙向的,其吞吐量更大。

目前,語音助手最常用的用例是設置鬧鐘、播放音樂、查看天氣和詢問簡單的問題。所有這些都是低風險的任務,在失敗時不會讓用戶太沮喪。

正如《華爾街日報》的大衛(wèi)·皮爾斯曾經寫道:

我無法想象通過語音助手預訂航班或管理我的預算,或者通過對我的揚聲器大喊食材配料來跟蹤我的飲食。

——《華爾街日報》的大衛(wèi)·皮爾斯

這些是信息密集型任務,需要正確處理。

然而,語音用戶界面終會走向失敗。關鍵是盡快解決這個問題。在鍵盤上打字時,甚至在面對面的對話中,都會出現很多錯誤。然而,這一點也不令人沮喪,因為用戶只需單擊退格并再次嘗試或請求澄清即可恢復。

這種從錯誤中快速恢復的方式使用戶能夠提高效率,并且不會迫使他們與助手進行奇怪的對話。

使用語音預訂機票。

直接語音互動

在大多數應用程序中,操作是通過操作屏幕上的圖形元素、戳或滑動(在觸摸屏上)、單擊鼠標和/鍵,或按下鍵盤上的按鈕來執(zhí)行的。語音輸入可以作為操作這些圖形元素的額外選項或模式添加。這種類型的互動可以稱為直接語音交互

直接語音交互和語音助手之間的區(qū)別在于,用戶不是要求語音助理化身去執(zhí)行任務,而是直接用語音操作圖形用戶界面。

語音搜索在用戶說話時提供實時視覺反饋。(圖片來源:截圖)

“這不是語義嗎?”你可能會問。如果你要和電腦對話,你是直接和電腦對話還是通過虛擬角色對話真的重要嗎?在這兩種情況下,你只是在和電腦說話!

是的,差別很細微,但很關鍵。當單擊GUI(圖形用戶界面)中的按鈕或菜單項時,很明顯,我們正在操作一臺機器。人對此沒有幻想。通過用語音指令代替點擊,我們對人機交互做出了改進。而另一種,使用語音助手模式,我們正在創(chuàng)建一個人與人之間的互動的惡化版,所以,獲得了恐怖谷效應。

而將語音功能與圖形用戶界面相結合,可能利用不同模式的力量。雖然用戶可以使用語音操作應用程序,但他們也能夠使用傳統的圖形界面。這使用戶能夠在觸摸和語音之間無縫切換,并根據他們的上下文和任務選擇最佳選項。

例如,語音是輸入豐富信息的一種非常有效的方法。在幾個有效的選項中選擇,則觸摸或單擊可能更好。然后,用戶可以通過說“向我展示明天從倫敦飛往紐約的航班”來代替打字輸入和瀏覽,然后通過觸摸從列表中選擇最佳選項。

現在你可能會問:“好吧,這看起來很棒,那為什么我們以前沒有見過這樣的語音用戶界面呢?為什么科技公司大廠不為這類事情開發(fā)工具呢?”

嗯,這可能有很多原因。一個原因是,當前的語音助手模式可能是他們從終端用戶那里獲得的數據的最佳方式。另一個原因與他們的語音技術構建方式有關。

良好的語音用戶界面需要兩個不同的部分:

  1. 將語音轉換為文本的語音識別
  2. 從文本中提取意義的自然語言理解組件。

第二部分是將“關掉客廳的燈”和“請把客廳的燈關掉”這兩句話變成同樣操作的魔法。

如果您曾經使用過帶有顯示器的語音助手(如Siri或谷歌 Assistant),你可能會注意到,你幾乎是實時地獲得文本記錄,但在您停止說話后,系統需要幾秒鐘才能真正執(zhí)行你所要求的操作。這是由于語音識別和自然語言理解是依次發(fā)生的。

讓我們看看如何改變這一點。

四、實時口語理解:提高語音命令效率的秘訣

應用程序對用戶輸入的響應速度是影響應用程序總體用戶體驗的一個主要因素。第一代iPhone最重要的創(chuàng)新是它反應靈敏的觸摸屏。語音用戶界面對語音輸入及時反應的能力同樣重要。

為了在用戶和用戶界面之間建立快速的雙向信息交換循環(huán),每當用戶說一些可操作的事情時,啟用語音的GUI應該能夠立即做出反應——即使是在句子中間。這需要一種稱為流式口語理解的技術。

實時視覺反饋需要一個完全流式語音API,不僅可以實時返回對話記錄,還可以實時返回用戶意圖和實體。(圖片來源:作者)

傳統的基于回合的語音助手系統在處理用戶請求之前會等待用戶停止說話,與之相反,使用流式語音理解的系統從用戶開始說話的那一刻起就積極嘗試理解用戶意圖。一旦用戶說了一些可操作的事情,用戶界面就會立即做出反應。

即時響應立即驗證系統正在理解用戶,并鼓勵用戶繼續(xù)。這類似于人與人之間溝通中的點頭或簡短的“嗯”。這就能支持進行更長、更復雜的話語。另外,如果系統不理解用戶或用戶出現錯誤,即時反饋可以實現快速恢復。用戶可以立即糾正并繼續(xù),甚至口頭糾正自己:“我想要這個,不,我的意思是,我想要那個?!?/p>

實時視覺反饋使用戶能夠自然地糾正自己,并鼓勵他們繼續(xù)語音體驗。由于他們不會被虛擬角色弄糊涂,它們可以以類似于錯別字的方式與可能的錯誤聯系起來,而不是個人侮辱。這種體驗更快、更自然,因為提供給用戶的信息不受每分鐘約150字的典型語音速率的限制。

五、結論

雖然到目前為止,語音助手一直是語音用戶界面最常用的用途,但使用自然語言響應使其效率低下且不自然。語音是輸入信息的一種很好的方式,但聽機器說話并不是直達人心。這是語音助手的大問題。

因此,語音的未來不應該在于與計算機的對話,而應該是用最自然的交流方式——語音,來取代繁瑣的用戶任務。直接語音交互可用于改善Web或移動應用程序中的表單填寫體驗,創(chuàng)建更好的搜索體驗,以及實現更高效的應用程序控制或導航方式。

設計師和應用程序開發(fā)人員一直在尋找減少應用程序或網站摩擦的方法。使用語音模式增強當前的圖形用戶界面將使用戶交互速度提高數倍,特別是在某些情況下,例如當終端用戶在移動設備上和旅途中以及打字困難時。事實上,即使使用臺式計算機,語音搜索也比傳統的搜索過濾用戶界面快五倍。

下次,當您考慮如何使應用程序中的特定用戶任務更易于使用、更愉快或有興趣增加轉換時,請考慮是否可以用自然語言準確描述該用戶任務。如果是,請使用語音模式補充您的用戶界面,不要強迫用戶與計算機對話。

作者:Ottomatias Peura

原文:https://www.smashingmagazine.com/2021/06/alternative-voice-ui-voice-assistants/

本文由 @怡伶設計寶藏 翻譯發(fā)布于人人都是產品經理。未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 很認真的看完了,受益

    來自北京 回復