如何評測語音助手的智能程度(3):交互流暢
本篇文章為大家?guī)怼窘换チ鲿场烤S度的評測點(diǎn)拆解。這個(gè)模塊,重點(diǎn)考量智能助手各個(gè)性能指標(biāo)及交互體驗(yàn)層面的表現(xiàn)。希望對從事相關(guān)領(lǐng)域工作的各位有所啟發(fā)。
當(dāng)用戶發(fā)起需求后,【意圖理解】在前,【服務(wù)提供】在后,基本上已經(jīng)構(gòu)成了一輪完整閉環(huán)。
之所以把【交互流暢】這個(gè)點(diǎn)作為一個(gè)單獨(dú)維度拆解出來,是因?yàn)槠湄灤┦冀K。如果這個(gè)模塊的內(nèi)容如果處理不好,將全程傷害體驗(yàn)。
本篇文章為大家?guī)怼窘换チ鲿场烤S度的評測點(diǎn)拆解。
這個(gè)模塊,重點(diǎn)考量智能助手各個(gè)性能指標(biāo)及交互體驗(yàn)層面的表現(xiàn)。
1. 服務(wù)穩(wěn)定性
“正常運(yùn)行”、“不出bug”、“魯棒性好”
評測點(diǎn)已經(jīng)講完了,十分清晰,幾乎每一個(gè)互聯(lián)網(wǎng)從業(yè)者都能夠說出個(gè)1234,然后呢?
穩(wěn)定不好,這類問題可大可小,小點(diǎn)就是網(wǎng)絡(luò)繁忙,不給你任何反饋,大到極致,機(jī)器人可以反動搞事情:“愚蠢的人類啊,阿西莫夫的機(jī)器人三定律也救不了你們。”
好了,開個(gè)玩笑。實(shí)際上,定義“what”容易,解決“how”往往都才是考量業(yè)務(wù)理解。
所以,在過往我經(jīng)常會問面試者的問題有一個(gè):你曾經(jīng)做過的智能助手產(chǎn)品,出過哪些問題,你是如何解決的?
不同的人回答不同,對于這類命題,才更有探索價(jià)值。
一般情況下,回復(fù)這些是技術(shù)的問題,往往都很糟糕,實(shí)際上,每個(gè)公司的穩(wěn)定性業(yè)務(wù)保障是需要一個(gè)體系來承擔(dān)的。
所以能得分的面試回答是,把影響穩(wěn)定性的故障進(jìn)行一個(gè)分類,并且設(shè)計(jì)好處理路徑。
這里只有大類別,單單一個(gè)業(yè)務(wù)后臺,就能做很多范圍細(xì)分。故障表現(xiàn)情況例如:崩潰、局部故障、弱網(wǎng)環(huán)境、狀態(tài)更新、請求超時(shí)、并發(fā)表現(xiàn)……嚴(yán)重程度不一致,此處不逐一展開。
出過哪些問題分類回答完畢,你是如何解決的呢?是后續(xù)的一個(gè)命題。
一般情況下,公司的業(yè)務(wù)流程是這樣運(yùn)轉(zhuǎn)的。
這里有3個(gè)細(xì)節(jié):
- 反饋的行為折損。根據(jù)歷史數(shù)據(jù)表現(xiàn),1個(gè)問題被報(bào)上來,背后往往有至少10個(gè)以上的用戶遇見過,只是用戶懶/報(bào)問題麻煩,沒有報(bào)而已。
- 反饋的信息折損,客服問:你做了什么操作導(dǎo)致的崩潰?用戶答:我也不知道,就崩潰了。這種情況,是不利于排查和定位問題的。
- “解決方案的設(shè)計(jì)”,這里也分為“臨時(shí)解決方案”和“全局最優(yōu)解決方案”兩說。
下圖是一個(gè)信息化的風(fēng)控結(jié)構(gòu),做過相關(guān)模塊的,懂得自然懂,篇幅太長,此處不展開。
所以,在考量服務(wù)穩(wěn)定性上有兩個(gè)大層面,一個(gè)是智能助手本身的穩(wěn)定性表現(xiàn),二個(gè)是在服務(wù)用戶的過程中,如何規(guī)避,以及遇見問題后的業(yè)務(wù)響應(yīng)速度表現(xiàn)。
服務(wù)穩(wěn)定性的考量是以一定周期、頻次進(jìn)行考量才是科學(xué)合理的。
2.?響應(yīng)速度/流暢度
服務(wù)穩(wěn)定性保障了之后,接下來就是速度。
語音交互這件事,本身就是因?yàn)檎Z音輸入的高效性。
當(dāng)用戶發(fā)出了需求,希望盡快拿到反饋,現(xiàn)在的用戶極其沒有耐心,速度一旦過慢,注定會被棄而不用。
而在智能語音助手交互對話的過程中,又包含哪幾個(gè)階段呢?
先明確一點(diǎn),一味追求快并非是好。
- 人類喚醒后,計(jì)算器的響應(yīng)靈敏度,靈敏度太強(qiáng)(誤喚醒)或太弱(沒反應(yīng))都不好,當(dāng)然如果升級下維度,還可以添加場景,比如噪音下喚醒,遠(yuǎn)場喚醒等。靈敏度是可以調(diào)試的,以表現(xiàn)合適最好。
- 人類表述了自己需求后,ASR有兩種方案,一種是邊識別邊轉(zhuǎn)換文本,另外一種是表述完畢后一口氣轉(zhuǎn)換為文本。
- 業(yè)務(wù)邏輯處理表現(xiàn),其實(shí)是NLP領(lǐng)域最為核心的部分,也是最為耗時(shí)的部分,從效率角度上而言,此處盡管追求越快越好。
- 這里的語音播放,不是越快越好,而是合適就好,語速太快會給人一種輕浮及不穩(wěn)重的感受,太慢則顯得很笨以及可能造成不耐煩。而反饋樣式則需要盡快呈現(xiàn),有些智能助手語音播放完畢了,結(jié)果下面的內(nèi)容還沒加載到位。
- 人類總計(jì)2次交互,一次喚醒,一次表達(dá)意圖,這2個(gè)行為過后,等待AI反饋。也就是說,當(dāng)用戶說完話后的下一秒,助手要同時(shí)處理,識別+理解+接口查詢+反饋四個(gè)階段,這個(gè)過程中,全部都是用戶的等待狀態(tài)。
人們?nèi)ワ埖挈c(diǎn)完了菜,等上菜的過程中,中間服務(wù)員還會過來幫忙緩解,這個(gè)過程較長,一定要考慮好等待體驗(yàn)管理,不至于讓用戶無聊。
前后端共同協(xié)作,添加一些語音播報(bào),模態(tài)框提示,漸隱消失提示,動畫效果,來管理用戶的等待體驗(yàn)。
而有些無屏的音箱則需要使用等待、加載、成功等光效表現(xiàn)來管理用戶的等待體驗(yàn)過程。
所以,在響應(yīng)速度/流暢度這個(gè)維度上,不同的情況不同的對待,以合適最好。
3.?交互形式豐富度
每一種交互形式的存在,都有著其依賴的場景。
下圖是我嘗試窮舉人類的輸入行為(盡力做到MECE)。
點(diǎn)觸、語音、手勢、點(diǎn)頭搖頭、人臉識別、聲紋、指紋驗(yàn)證等等均算在內(nèi)。
這一塊真的不需要多講,除了腦機(jī)接口,基本上都玩過,體驗(yàn)過的都會覺得其有意思的地方。
交互形式豐富度,評測點(diǎn)已解釋完畢,在未來,一定是多模態(tài)交互,來適應(yīng)各種各樣的業(yè)務(wù)場景。
說一點(diǎn),產(chǎn)品經(jīng)理應(yīng)該修煉的部分。
筆者有一個(gè)出門問問的耳機(jī),它是智能助手的操控延伸。在提供創(chuàng)新體驗(yàn)的同時(shí),弄明白了是什么(what),基于此去探究為什么(why)以及怎么辦(how)。
所以,筆者認(rèn)為產(chǎn)品經(jīng)理應(yīng)該修煉的部分。
- 盡量多的去使用智能硬件,把工作體驗(yàn)變成日常,以培養(yǎng)敏感度。
- 弄清楚這些交互方式、元器件連接方式背后的技術(shù)實(shí)現(xiàn)原理。
- 每種技術(shù)方案都有多種實(shí)現(xiàn)方式,知曉其優(yōu)劣勢及實(shí)現(xiàn)成本。
這三層修煉是遞進(jìn)關(guān)系。只有這些把這類東西融入到了我們的生活之中,敏感性才培養(yǎng)得起來,繼而去加深理解,如此才更有可能做創(chuàng)新。
我們今天所熟知的眾多的科學(xué)以及專利技術(shù)的發(fā)明者,其實(shí)都是根據(jù)前人的經(jīng)驗(yàn)進(jìn)行的某種程度上的改進(jìn)。從結(jié)果上來看,主要有兩種改進(jìn)方向。
一種是將一個(gè)原本在實(shí)驗(yàn)室里面理論上可行,變成大規(guī)模批量生產(chǎn)的方案。
另一種則是根據(jù)已有的技術(shù)發(fā)明,發(fā)現(xiàn)一些“居然這個(gè)技術(shù)還可以被這樣使用” 的方案。
蘋果公司在技術(shù)研發(fā)上,并沒有什么特別優(yōu)秀的表現(xiàn),但是在整合以及運(yùn)用技術(shù)的這件事情上,則是優(yōu)秀中的代表。市面上的絕大多數(shù)的手機(jī)公司的研發(fā)部門,應(yīng)該都叫技術(shù)方案整合商更為貼切。
只有將自己的日常浸潤到各種類型的交互體驗(yàn)里,進(jìn)而去理解實(shí)現(xiàn)方案背后的技術(shù)原理,才更有可能做出創(chuàng)新??!
4.?新手教學(xué)表現(xiàn)
我第一次給父母體驗(yàn)‘小愛同學(xué)’的時(shí)候,他們是需要我的幫助才能使用。
什么是喚醒;什么是監(jiān)聽;什么時(shí)候你說話它會響應(yīng)/不響應(yīng);覺得羅嗦,如何打斷對方。
這個(gè)教學(xué)行為大概要持續(xù)一小會,言傳身教才能夠?qū)W出如何進(jìn)行語音交互。
如果沒有我,我的父母將無法上手。這種依賴人,在旁邊教的東西,實(shí)在是學(xué)習(xí)成本太高。
而當(dāng)我們的產(chǎn)品被用戶首次體驗(yàn)的時(shí)候,如果沒有新手教學(xué),用戶也許就呆滯在那里,并不知道如何使用。
新手教學(xué)體驗(yàn)是非常重要的一個(gè)環(huán)節(jié)。
體驗(yàn)各家智能語音助手,在這一塊的表現(xiàn)上各不一致,故而列為評測點(diǎn)。
行業(yè)新的新手引導(dǎo)教學(xué)其實(shí)非常多的種類,滑屏海報(bào),蒙版遮罩,文字tips,互動式引導(dǎo)。
簡單一分為二的說,大體可以分為,基本操作教學(xué),以及對應(yīng)業(yè)務(wù)的教學(xué)。
在考量這個(gè)業(yè)務(wù)表現(xiàn)得維度上,基本操作教學(xué)必須得有。而具體業(yè)務(wù)教學(xué),則是具體問題具體設(shè)計(jì)。
百度地圖的新手引導(dǎo)就做得十分友好?;旧蠟樾《葘?dǎo)航的每個(gè)業(yè)務(wù)能力配備了沉浸式引導(dǎo)方案。
這一塊是參照游戲行業(yè)的解決方案。就我過往對小度的體驗(yàn),其實(shí)有很幾次改版了,不斷迭代演化至今。
最好的交互設(shè)計(jì)其實(shí)是不需要新手引導(dǎo)的,如同微信一樣自然。
在一個(gè)普遍使用點(diǎn)觸操作習(xí)慣的年代,如何讓用戶體驗(yàn)這種新的交互體驗(yàn)方式?壓力就在新手教學(xué)上。學(xué)的會就用,學(xué)不會就丟棄。
嘗鮮體驗(yàn)過后,以后也會(改變習(xí)慣)使用語音尋求業(yè)務(wù),壓力則在業(yè)務(wù)設(shè)計(jì)上。方便就用,不方便就丟棄。
這是一個(gè)遞進(jìn)邏輯。只有基本操作掌握了才有后面的(改變習(xí)慣)使用,把用戶當(dāng)成小白的新手教學(xué)行為,一定得做好!
5. 全雙工交互表現(xiàn)
全雙工(Full Duplex)是通訊傳輸?shù)囊粋€(gè)術(shù)語。通信允許數(shù)據(jù)在兩個(gè)方向上同時(shí)傳輸。
先用通俗的例子比喻下:
單工:類似聽廣播——單向傳遞信息,一個(gè)人只能聽另一個(gè)人說。
半雙工:類似對講機(jī)。
甲:洞幺洞幺,能不能聽到我說話,over。
乙:可以聽到,over。
全雙工:類似打電話。
甲:喂,還記得我的聲音么?我是……
乙:啊,是你小子啊……
雙方可以各說各的,可以互相打斷。
人機(jī)交互追求更加自然流暢,這一點(diǎn)必不可少。
當(dāng)前的語音助手,只有在進(jìn)入監(jiān)聽狀態(tài)才可以做出反饋。
而進(jìn)入監(jiān)聽的兩種情況,一種是使用[喚醒詞],完成喚醒/打斷的動作。
另一種是AI判斷業(yè)務(wù)沒完,做出引導(dǎo)式的追問,然后進(jìn)入監(jiān)聽狀態(tài)。
例如:
用戶:我想看最近上映的電影。
助手:為你找到如下電影,你可以對我說看第幾部。播放完畢后進(jìn)入監(jiān)聽狀態(tài)。
其實(shí)助手第一時(shí)間在屏幕上展示了電影列表的搜索結(jié)果,但是總得把語音念完……。
作為用戶而言,我已經(jīng)看到了助手給我的展示結(jié)果,也知道你的后續(xù)話術(shù)套路,我會迫不及待的使用[喚醒詞],完成打斷行為……使用過的都會感受到這種情況的心累。
而在全雙工的能力加持下,即為,你播報(bào)你的,我說我的,不用等你念完,才進(jìn)入監(jiān)聽狀態(tài),你念一半的時(shí)候,我搶話到下一步驟,你根據(jù)我的節(jié)奏推進(jìn)業(yè)務(wù)就好。
還有一種技術(shù)方案相信從業(yè)者們也不陌生,就是基于當(dāng)前語義場景下的“判斷為無效內(nèi)容后的拒絕響應(yīng)”。
例子:我想聽……嗯,我想想,哦對了,那個(gè)周杰倫的青花瓷
識別出用戶當(dāng)前說的話是不是給它的指令,能過濾掉無效的停頓,語氣助詞等干擾信息,再做出反應(yīng)。
這就是全雙工所指的“瞬間雙向”表現(xiàn),更接近人與人之間的自然對話,提升了交互體驗(yàn)。
6. 階段性結(jié)尾
同樣的,在【交互流暢】這個(gè)單元模塊,有更多評測點(diǎn)去列舉,但是受限于篇幅以及能力所限,刪掉的一些內(nèi)容。保留以及刪除評測點(diǎn)的原則,也是基于評測指標(biāo)的普適性。
同樣用提問的方式,列舉一下我刪除掉的考核點(diǎn)。
第(6)點(diǎn),列舉一個(gè)我玩游戲多多自走棋,體驗(yàn)游戲助手的例子。敏感詞,會在很多的地方出現(xiàn)。防止內(nèi)容攻擊,保護(hù)安全的,特別是大公司,往往會用上一個(gè)敏感詞庫過濾處理,相信很多的人都遇見過,有些給你反饋,有些則直接給你和諧掉了。顯然是影響交互體驗(yàn)流暢度的。造成這種情況的顯然是政策問題。
第(7)點(diǎn),未來的交互體驗(yàn)過程中,多硬件終端,多場景,有屏無屏的交互體驗(yàn)方案,這是一個(gè)“現(xiàn)階段各家都沒做,而在未來各家一定會做”的評測點(diǎn)。
如果列舉其例子,問題以及探討解決方案起來,篇幅就過長了,就目前AI跨平臺使用表現(xiàn)而言,故現(xiàn)階段舍棄。
第(8)點(diǎn),完成任務(wù)時(shí)候的成本考量。這個(gè)里面涉及一些語音識別、語義理解的層面。比如,任務(wù)流的多輪對話是分層次的,而當(dāng)用戶一口氣給助手提供多個(gè)查詢槽位,能否給予結(jié)果。比如,在一些支付和驗(yàn)證的層面,視覺和聲紋讓用戶付出的代價(jià)幾何等等。助手取硬件權(quán)限(讀取GPS,讀取短信等)時(shí)的表現(xiàn)。
在滿足用戶需求的時(shí)候一定有方案,而不同方案之間的取舍考量就存在比較關(guān)系了。
筆者在設(shè)計(jì)業(yè)務(wù)的時(shí)候,同時(shí)也會考量用戶的隱私保護(hù)安全。
- 你要安全,就加判斷確認(rèn),加驗(yàn)證,影響流暢度。
- 你要流暢,就替用戶配置更多的默認(rèn)選項(xiàng),影響安全。
“流暢”和“安全”本身就是一個(gè)互相沖突的命題。此處沒有對錯(cuò),只有選擇。
【交互流暢】是一個(gè)非常重要的全局性指標(biāo),貫穿【意圖理解】和【服務(wù)提供】始終。如果這個(gè)維度的評測方向如果處理不好,將全程傷害體驗(yàn)。
以上,關(guān)于第三大維度【交互流暢】的諸多考量點(diǎn),就此完結(jié)。后續(xù)文章會補(bǔ)充余下的部分,并以相同的形式進(jìn)行補(bǔ)充解釋和完善。
后續(xù)篇幅預(yù)告:【人格特質(zhì)】——智能助手是否具備足夠的魅力/人格化特質(zhì),就情緒表現(xiàn),情商,共情、個(gè)性化、擬人化程度來設(shè)計(jì)評測指標(biāo)。
謝謝你看到了這里,希望能給大家的工作帶來一些幫助和思考。
寫作這個(gè)事情,考量點(diǎn)真的太多,無法敞開了寫??梢栽诹粞詤^(qū)評論或者添加作者微信公眾號深入討論。
相關(guān)閱讀
作者:飯大官人,不折騰會死星人,微信公眾號:fanfan19860403《游戲運(yùn)營:高手進(jìn)階之路》作者。熟悉游戲領(lǐng)域、人工智能-自然語言處理領(lǐng)域。
本文由 @飯大官人 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
- 目前還沒評論,等你發(fā)揮!