VUI 與 GUI,不同場景下的優(yōu)劣對比

2 評論 12529 瀏覽 70 收藏 15 分鐘

筆者從事自然語言處理已經(jīng)超過了一年半的時間,對語音交互有了自己的理解,本文以封閉五官的極端狀態(tài)為各位讀者帶來一種特別的體驗,以便大家熟悉和掌握其特點和優(yōu)勢,以便將來大家應(yīng)用到自己的產(chǎn)品設(shè)計中。

為方便討論,先做一下定義。市面上關(guān)于交互的常見的幾個詞匯,GUI、VUI、DUI。

一、三種基本概念

1. GUI

GUI(Graphical UserInterface)圖形界面,市面上最常見的交互方式。點觸,滑動,作為主要輸入方式。圖像顯示作為主要輸出方式。

2. VUI

VUI(Voice User Interface)語音界面,常見沒有屏幕的智能音箱/耳機(jī),靠音軌輸入,音軌輸出。

VUI還有一個前身,即IVR(Interactive Voice Response)交互式語音應(yīng)答,類似我們撥打營業(yè)廳電話,通過選擇數(shù)字,來選擇進(jìn)入某某業(yè)務(wù)。

3.?DUI

DUI(Dialogue User Interface)對話界面,當(dāng)然還有另外一種說法叫做CUI(Conversational User Interface),舉例子就是蘋果的SIRI,或者某種對話機(jī)器人,以對話式窗口作為主要功能界面。這種方式是混合式方案,故而不在討論范圍之內(nèi)。

二、交互形態(tài)

為方便理解,更容易代入角色,理解交互形態(tài),大家需要在限制的條件下體會。

只有封閉了自己的功能,如此才能做到設(shè)身處境,繼而理解兩種不同交互形態(tài)的差異。不妨把自己想象成:聽力正常且發(fā)音標(biāo)準(zhǔn)的盲人,以及視力正常且四肢健全的聾啞人。

GUI(Graphical UserInterface)圖形界面

特性:使用鼠標(biāo)鍵盤、手指點觸,作為主要輸入方式,以圖形展示作為輸出方式。通俗來說:動眼動手與硬件進(jìn)行交互。當(dāng)前市面上最為常見的交互方式。

VUI(Voice User Interface)語音界面

特性:使用語音作為輸入,語音作為輸出。能聽見,能發(fā)音,那么就能使用VUI。通俗來說:動耳動嘴與硬件進(jìn)行交互。未來一定會走入我們生活的交互方式。

日常生活中有很多場景,雙手是被占用的,如果有好的VUI的解決方案,那么就存在交互空間。

解放雙手是一個特性,不足以成為優(yōu)點,是一種特定情況下的解決方案。

VUI的缺點,只能在安靜和隱私的環(huán)境下進(jìn)行,在公共場合使用,必然引起他人的圍觀,繼而造成自己的心里壓力。GUI則不存在輸入壓力問題,僅依賴光線。

輸入速度,是VUI的一個巨大優(yōu)勢,需要什么說就好了,然后通過ASR轉(zhuǎn)化為文字,由計算機(jī)理解,并執(zhí)行命令。

GUI的界面上顯示了太多的信息,如果不熟悉的話,需要判斷點哪里(如果你教老人使用智能手機(jī)就能懂得其痛苦)有些時候還需要調(diào)用鍵盤,輸入速度就很慢。

播放周杰倫的《煙花易冷》如果用點觸的話,操作成本非常高(打開APP,尋找搜索框,輸入指定信息,搜尋,選擇列表中的一個播放)。而使用VUI,成本就非常低。

VUI可以無視層級,一句話直達(dá)目標(biāo)。例如:播放2020年NBA全明星正賽第4節(jié),或者是打開APP的簽到功能/活動頁面這類話術(shù),可以直達(dá)熟悉的位置。

而GUI則是預(yù)設(shè)路徑的交互方式,強(qiáng)迫用戶沿著單一路徑去完成操作的人機(jī)交互方式。每一步操作正確或者錯誤都會給予反饋,通過信息結(jié)構(gòu)層級去展示指定內(nèi)容,這非常方便人們學(xué)習(xí)和摸索規(guī)律,故而不是缺點而是特點。

VUI的缺點,由于人類的輸入不可控,導(dǎo)致計算機(jī)難以理解——

  • 用戶本身發(fā)音模糊;依賴ASR(語音識別:Automatic Speech Recognition)技術(shù)的表現(xiàn)。
  • 人類表述差異化較大,無邏輯,上下文表述會使用指代關(guān)系,會歧義或者雙關(guān)。而計算機(jī)推理較難,此處考驗NLP(自然語言處理:Natural Language Processing)的能力。

GUI的優(yōu)點就是輸入精準(zhǔn),任何操作都有著邊界約束,流程可控,選擇明確,計算機(jī)容易理解。

交互是一個雙向的過程,語音作為輸入動作確實很快,而純語音輸出的話,效率非常低。幾乎沒有人愿意做太多的等待行為。且語音輸出攜帶的信息量非常少。

比如展示2020福布斯前10名的結(jié)果,語音輸出的效率就是悲劇。而視覺層面展示的內(nèi)容可以無限多,可以使用表格圖形的方式進(jìn)行展示,眼睛接受效率也非常高。

在計算機(jī)輸出的過程中,語音輸出要求人不可分心,需消耗注意力,視覺展示則沒有,即使走神,也無壓力。

在語音交互的過程,如果是多輪交互,當(dāng)計算機(jī)說完之后,立刻留給人決策,注定會給人壓力。GUI則不存在這個過程。

比如一個簡單的機(jī)票業(yè)務(wù)查詢結(jié)果,為你找到從[城市]到[城市],[幾月幾日][幾點幾時幾分]出發(fā)[航空公司][飛機(jī)倉位][機(jī)票價格],是否需要定這張票?

當(dāng)語音播放完畢后,我是不是要思考和比較一下?如果我想更新下查詢條件,語音應(yīng)該如何處理?而這交給GUI,就非常容易處理。

基于此,我們整體來看一下兩種交互形式的優(yōu)劣表現(xiàn):

由于GUI的特性大家非常熟悉,所以本文偏重于總結(jié)提煉純VUI的特性。

三、VUI的特性

1. 基本特性

VUI語音交互的特性是解放雙手,動嘴就可以搞定。在某些業(yè)務(wù)場景下,是存在于雙手被占用,通過語音指令完成目標(biāo)的需求。(作者吐槽:GUI交互總不能寫,不用動嘴且不依賴光線就能解決問題吧,這很奇怪)

VUI語音交互依賴安靜、隱私環(huán)境,公共場合有使用壓力。聲音輸入,和聲音輸出都可以通過空氣這個介質(zhì)傳播。即使是耳機(jī)可以管理計算機(jī)的輸出行為,但是人類的輸入行為也會引起他人的圍觀。這一點就局限了VUI的使用場景。

當(dāng)【基本特性】掌握后,對尋找VUI的使用場景有了方向,即

  • 光線不太好,不方便點觸操作
  • 雙手被占用,不方便點觸操作
  • 隱私,安全,的無場景
  • 使用語音無壓力的場景

所以目前看來,臥室、客廳和車內(nèi)這種相對隱私的空間是VUI的主要交互場合。

  • 開車的時候,雙手被占用,VUI有發(fā)揮空間
  • 騎車或者跑步鍛煉的時候,VUI有發(fā)揮空間
  • 晚上都關(guān)燈了,不想睜眼睛,VUI有發(fā)揮空間
  • 快遞員/外賣小哥在送東西的時候,VUI有發(fā)揮空間

2. 輸入表現(xiàn)

GUI是一種預(yù)設(shè)路徑的交互方式,VUI則聚焦于如何發(fā)揮語言和表意的強(qiáng)大力量,采用人們?nèi)粘5恼Z言來交流。

GUI需要人類適應(yīng)工具。VUI則是由工具適應(yīng)人。

語音輸入門檻非常低,只要會說話,就能模仿,輸入速度快捷,相比GUI擁有巨大的優(yōu)勢。而圖形界面則具備相當(dāng)?shù)膶W(xué)習(xí)門檻,難點就是在于,用老年人學(xué)習(xí)手機(jī)的委屈狀態(tài)“這個上面字那么多,按鈕那么多,我不知道點哪里”以及“這個太多了記不住”。

VUI另外一個特性優(yōu)勢是沒有UI層級,可以一句話直達(dá),這點對于熟悉的事物具備巨大的優(yōu)勢。不需要像GUI依照層級關(guān)系一路點過去。而GUI的特性是流程明確,對于復(fù)雜的流程,明確交代了層級關(guān)系。

VUI的巨大劣勢是,用戶的輸入表述不可控,這是自然語言處理的核心,即,如何讓計算機(jī)理解人類的各種表述。而圖形界面則輸入非??煽兀嬎銠C(jī)易于理解。

3. 交互表現(xiàn)

VUI語音輸出的效率非常低,且依賴注意力。這是巨大的劣勢。而對GUI而言,則是巨大的優(yōu)勢,不要求人類過于集中注意力。

VUI反饋設(shè)計,注定無法輸出大量內(nèi)容,最好的表現(xiàn)還是GUI。多輪對話中,盡量控制用戶的表述范圍,才能夠得到更好的體驗。

基于輸入表現(xiàn)和交互表現(xiàn),我們對處理VUI交互有了方向,即

  • 一句話能搞定的用戶熟悉的任務(wù)
  • 決策壓力低的的任務(wù)
  • 管理用戶輸出,讓其做選擇題或填空題
  • 語音輸出的內(nèi)容不應(yīng)該太長
  • 不讓用戶做挑挑揀揀的任務(wù)

綜上,只有理解其優(yōu)勢和劣勢,才方便展開業(yè)務(wù)。

附一張當(dāng)前智能音箱的技能列表,筆者已經(jīng)就自己的理解做了歸納,這是當(dāng)前市面上,相對比較成熟的語音交互技能。

我們還是回歸正常,未來一定是多模態(tài)交互的場景。

人類與計算機(jī)打交道的方式不斷演變,隨著科學(xué)技術(shù)的發(fā)展,從最早的命令行,鼠標(biāo)鍵盤,到如今最為主流的點擊和觸摸,到未來的語音交互以及手勢交互。

想做好交互設(shè)計,只有了解各種交互形式的優(yōu)缺點,硬件相關(guān)知識,技術(shù)相關(guān)知識,才能夠做好選擇,然后疊加出多模態(tài)交互方案。

生活中,帶屏幕的音箱越來越多,而且耳機(jī)也是搭配各種屏幕的硬件使用的,而且在未來,就跟科幻電影里面一樣,幾乎每一塊屏幕都可以用來操作。

從實際的發(fā)展趨勢上來看,未來注定是萬物互聯(lián)的世界,幾乎任何硬件都可以搭配麥克風(fēng)、揚(yáng)聲器和WIFI模塊三件套,由于其硬件成本低,普及極其容易。各方數(shù)據(jù)表現(xiàn),可穿戴智能硬件出貨量巨大……語音又是最為自然的交互形態(tài),一定會在我們生活中占據(jù)一席之地。

語音交互,將會給我們的產(chǎn)品設(shè)計帶來極大的改變,提供更為豐富立體的交互樂趣。在即將到來的萬物互聯(lián)時代,對各位交互設(shè)計師/產(chǎn)品經(jīng)理而言,也是一種進(jìn)步和挑戰(zhàn)。

做好語音交互,不需要掌握任何畫圖技巧,上下文對話,就是UI本身,如何管理用戶輸入,全憑內(nèi)容結(jié)構(gòu)。

本文旨在討論,GUI和VUI的區(qū)別,相關(guān)設(shè)計不做展開,相關(guān)的VUI設(shè)計心得,會在后續(xù)文章中,為大家介紹。

 

作者:飯大官人,不折騰會死星人,微信公眾號:fanfan19860403《游戲運(yùn)營:高手進(jìn)階之路》作者。熟悉游戲領(lǐng)域、人工智能-自然語言處理領(lǐng)域。

本文由 @飯大官人 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自?Unsplash,基于 CC0 協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. ????

    來自山東 回復(fù)
  2. 非常詳細(xì)的分析,學(xué)習(xí)了??

    來自江蘇 回復(fù)