如何評測語音助手的智能程度(2):服務(wù)提供

4 評論 13084 瀏覽 45 收藏 24 分鐘

關(guān)于如何評測的問題,筆者從四個維度展開了分析,而本文服務(wù)提供維度展開評測點的拆解,考量的是場景理解及整合應(yīng)用CP和SP的能力。

很多人覺得AI是一個行業(yè),但AI其實并不是行業(yè),真實的情況是行業(yè)+AI,即原本的各個行業(yè)如何釋放AI的能力促使產(chǎn)業(yè)升級,提升運轉(zhuǎn)效率,創(chuàng)造更多的社會價值。

在前一篇文章里,用戶提出一個需求——“我就想要一個聰明且好用的智能助理,能夠滿足我生活中的各種需求?!?/strong>

這個“各種需求”的滿足,其實是原本已經(jīng)存在解決方案的,AI只是試圖去革新體驗。

我們都知道那個著名的公式:用戶價值=(新體驗-舊體驗)-替換成本。

那么問題來了,用戶原本用得好好的,為什么要來用你呢?

很多AI創(chuàng)業(yè)公司就是理解以及處理不好這個問題,經(jīng)營不好而半路夭折。

任何一個服務(wù)背后的構(gòu)建,智能助手其實都依賴于CP(內(nèi)容提供商)和SP(服務(wù)提供商)的能力,那么如何將這些能力巧妙地與AI結(jié)合,是非常值得研究的部分。

前一篇文章,筆者重點談了【意圖理解】維度,本篇文章為大家?guī)怼痉?wù)提供】維度的評測點拆解。

在談及這個模塊的時候,評測考量的是場景理解及整合應(yīng)用CP和SP的能力。

1. 資源/服務(wù)的全面性

機器貓有一個百寶袋能夠解決足夠多的問題。

《超能陸戰(zhàn)隊》的大白最初的定位是在醫(yī)療健康領(lǐng)域,相對就比較窄一些。當然后續(xù)大白經(jīng)過版本迭代升級,也開發(fā)出自己的其他能力,這就是能力拓展。

“你看我家的這只大白,他又大又圓,能治病救人,還能打,要是能再多做一些事就好了”

所以,智能語音助手的技能服務(wù),能力范圍自然是越多越好?

在理解這個維度之前,我們一定要明白比較的對象。

在前面一篇文章里筆者曾經(jīng)提到過:“市面上,例如騰訊叮當、小愛同學(xué)、天貓精靈、小度音箱這類大生態(tài)的集合的處理方案,屬于最大的開放域?!?/p>

這種產(chǎn)品形態(tài)的背后,其實是把集團的資源整合進一個智能硬件中,為音箱這個智能硬件提供更多附加價值。

筆者的視角看來,這也是在未來,各CP和SP在未來注定會到來的智能時代,嘗試以音箱這類硬件載體,找到AI為用戶提供服務(wù)價值的一種探索性行為。

從這個角度去評判,他們無疑是大而全的。

巨頭們的打法,他們做的是生態(tài)。用評價應(yīng)用商店的角度,去評判智能助手,根本就不對。

故而SIRI的未來,定位一定是基于蘋果的大生態(tài),做一個向用戶提供SP和CP的連接器。它是中介,提供的服務(wù)能力是,幫助用戶尋找CP和SP。

而實際上,真正去解決我們生活中的問題的是,各個行業(yè)細分領(lǐng)域的CP和SP們。

CP角度:視頻、音樂、音頻內(nèi)容、文字內(nèi)容、游戲等領(lǐng)域。

SP角度:出行、教育、醫(yī)療、金融、電商、旅游、餐飲、客服、線下生活服務(wù)等領(lǐng)域。

所以,真正比拼服務(wù)全面性的,指的是解決某個具體問題的能力。

例如滴滴的定位是解決用戶的出行問題,如何解決一公里內(nèi)的出行服務(wù)需求,收購一家“自行車”唄。

在實際的業(yè)務(wù)評測,體驗測試很多市面上的AI助理,就覺得有些服務(wù)有,但是服務(wù)的覆蓋不夠。

例如很多的AI助手都是訂機票功能的,但是似乎少有的能做到整個服務(wù)鏈條的全覆蓋。比如:

  • 能定國內(nèi)的機票,沒法定海外的機票;
  • 買機票的同時,不能買出行相關(guān)的保險;
  • 乘坐飛機相關(guān)的各種FAQ服務(wù)問題能不能答得上來;
  • 行程單郵寄以及發(fā)票報銷,解決得是否到位;
  • 預(yù)約送機和接機的服務(wù)需求如何解決;
  • 商旅人士定酒店的服務(wù)是不是也得加上;

……

定位可大可小,只有先明確產(chǎn)品的定位,然后基于定位所覆蓋的服務(wù)范圍,去滿足用戶需求,基于這個角度去評測“資源/服務(wù)的全面性”才更準確。

而作為AI從業(yè)者,實際上應(yīng)該思考的是,用如何用現(xiàn)在的AI能力升級某個產(chǎn)業(yè),更好的為用戶提供更多的價值,爭取做到某個細分需求領(lǐng)域里面的最好。

此為,我輩中人,應(yīng)該反復(fù)思考的命題。

2. 資源/服務(wù)的質(zhì)量

既然有全面性考量,相對應(yīng)也有質(zhì)量的追求。

行業(yè)內(nèi)能提供最好質(zhì)量的也就是BAT的那幾家,這個背后是接口,即SP和CP的比拼。無非就是把手機上獲取的內(nèi)容和服務(wù),換一個硬件載體所承載。

從用戶角度而言,是通過點觸找到自己想要的內(nèi)容/服務(wù),還是和通過語音找到自己想要的內(nèi)容/服務(wù),這個過程并不重要,而真正在意的是能否滿足需求,有無體驗升級?

即,只要讓我能拿到能回家的火車票,我才不管哪個軟件,通過什么形式完成交易行為。

在這一點上,巨頭的SP和CP非常齊備,而小廠往往就慘兮兮,比如我想聽周杰倫的歌,我也能做好相關(guān)的語義理解,結(jié)果公司的背后沒有QQ音樂的支持,那只能找一些替代方案,還擔心版權(quán)問題。

中等廠商如喜馬拉雅,基于內(nèi)容做音箱,然后捆綁內(nèi)容完成銷售。

那么問題來了,如果自己不是巨頭公司,手里也沒有內(nèi)容,公司也沒太多的錢,買不到版權(quán),如何去做呢?

在一些細分領(lǐng)域,是存在內(nèi)容自建這一說的。我們可以開一些也許不嚴謹?shù)哪X洞。

先定義一下場景:智能廚房,如何給用戶帶來革新的體驗?

比如說,電冰箱上開個屏幕,外加麥克風(fēng)揚聲器wifi模組,這個硬件成本是可控的,如此可以構(gòu)成一個廚房AI機器人。

每天推特價菜,整合每日優(yōu)鮮或樓下便利店,對廚房的需求直接語音配送下單。在廚房這個場景下,屏幕上可以語音搜索,做菜烘培類的視頻資源等,可以用知乎,抖音,下廚房等任意地方的內(nèi)容,這個細分領(lǐng)域,維系好內(nèi)容建設(shè),成本并不高。

再比如說,市面上一些熱門游戲,已經(jīng)有了自己的智能助手,有些做的好,有些不好。

在這里可以尋求的服務(wù)可以有:提供游戲攻略、提供客服入口以及服務(wù)、收集用戶建議,做運營營收類動作一類系統(tǒng)整合服務(wù)。

就單單一個服務(wù)點,當用戶在游戲中挫敗的時候,卡在某個關(guān)卡下死活過不去,可以提供游戲圖文/視頻攻略,貼心的送一些臨時性的道具關(guān)懷,甚至幫助用戶完成戰(zhàn)斗。這些都是可以通過助手實現(xiàn),并有效提升用戶留存的。

所以,智能助手能不能基于場景和需求,給予用戶高質(zhì)量的內(nèi)容價值,是非常重要的考量點。

3. 反饋樣式的豐富性

簡單來說,就是智能助手的回復(fù)類型有多豐富。

還是舉個例子:現(xiàn)實生活中,你向其他人提問我想了解一下這個房子,你能介紹一下么?

如果現(xiàn)在同樣的問題,拋給語音助手,對方回復(fù)的內(nèi)容樣式包含如下:

  1. 純文本介紹
  2. 圖片搭配文本,語音介紹
  3. 視頻內(nèi)容介紹
  4. 帶交互的功能式頁面
  5. 導(dǎo)購講解外加VR視覺交互

無論是問問題和反饋需求,我的智能助手怎樣回復(fù)我,總會有一個反饋樣式。

在實際使用其他的智能客服交流的時候,問他一些非?;A(chǔ)的問題,比如說找一下簽到功能頁面

機器人會非常細心的告訴我,先點哪里,然后點哪里,然后點哪里就可以找到了。

問題就是他是一串純文本,為什么就不能給我一個直接跳轉(zhuǎn)到指定頁面的功能按鈕呢?顯然,它并沒有提供一個【跳轉(zhuǎn)】的功能樣式。

故而,智能助手輸出結(jié)果樣式的豐富性也應(yīng)該作為評測指標。

列舉一下當前的回復(fù)樣式,文本、圖文、視頻播放器、音軌、選項卡、表單、功能按鈕、多模態(tài)交互等等。

必要說明的是,樣式并非越華麗炫酷越好,而是恰當好處就好,往往越是華麗炫酷的東西,越是加載效果多,反饋速度慢也是評測丟分項(這個后面的評測維度會提及)。

樣式的選擇,就是具體場景具體分析了。

所以評測點是,是否能夠理解用戶需求,使用豐富的反饋樣式,提升用戶體驗。

4. 內(nèi)容展示合理程度

這一塊其實非常考驗人的設(shè)計功底,好的UI界面一定是簡單而優(yōu)雅的。

它只在用戶需要的時間,展示需要的內(nèi)容

展示是分為GUI(圖形界面)的和VUI(語音界面)兩個部分的。

就好比飛機的駕駛艙,一定是讓人抓狂和惱火的,太多的儀表盤和功能按鈕會讓人決策癱瘓。而這種設(shè)計我一般稱之為勸退性設(shè)計。而汽車的駕駛艙的設(shè)計就好的多,因為他簡化了操作。

而就算是汽車的駕駛艙,不同的廠商處理能力也完全不一樣,Tesla的處理表現(xiàn)是非常優(yōu)雅的。

經(jīng)歷過功能機年代的人都知道,那個年代實體鍵盤占據(jù)屏幕的一大部分,而當前的手機鍵盤僅僅在需要出現(xiàn)的時候出現(xiàn),類似的例子實在是太多了。

故而內(nèi)容展示的合理程度,也應(yīng)該成為一個評測標準。

就算是復(fù)雜的內(nèi)容,也需要做好信息處理,根據(jù)用戶的情況,分層次分階段,進行內(nèi)容展示。

為了幫助大家理解,我舉幾個語音交互層面的例子。

比如說,大家周末相約到你家聚會,有些同學(xué)由于不熟悉路況,然后打電話給你。你通過語音跟對方完成指路行為。注意,這是一個純語音對話的場景。

一般情況下,你采用的的話術(shù)表示是東南西北,一二三四某個街道樓棟門牌號這類語言結(jié)構(gòu),這種固然沒什么問題,但是往往是對空間感較好的男生比較友好。

而這類話術(shù)在女生那邊就不那么管用了,她們熟悉什么呢?商店品牌,廣告牌標識,建筑形狀,顏色等等,所以你自然就應(yīng)當調(diào)整自己的話術(shù),相信她們會更接受。

上述例子就是基于用戶的情況,去設(shè)計自己的話術(shù)呈現(xiàn)

前面一個智能廚房的場景,詢問如何做菜,一般會給予視頻推薦。如此,解放雙手,邊看邊聽邊做,這個是我們想象的美好場景。

如果內(nèi)容不加以控制和處理的話,用戶的使用路徑是,先看視頻后做菜,或者是邊看視頻邊做菜。如此,大概率會出現(xiàn),一看就會,一做就廢的情況。

原因無他,信息過載,細節(jié)過多,記不住。

而對內(nèi)容進行管理,加以處理的話,合理的處理分層次分階段,體驗便能再上升一個臺階。

上述例子就是基于分層次分階段,去設(shè)計自己的內(nèi)容呈現(xiàn)。

筆者曾經(jīng)設(shè)計過一些語音交互游戲。在進行業(yè)務(wù)教學(xué)的時候,曾經(jīng)走過類似的彎路。

往往我們一開始是需要向用戶介紹基本狀態(tài),以及基本操作指令的,在介紹游戲指令的時候,有這一段描述:

……游戲的命令列表分別是:“繼續(xù)”、“重復(fù)一遍”、“下一步”、“退出游戲”。

問題1:命令列表是計算機語言,不具備親和力,更好的表述應(yīng)該是替換成你可以對我說:

而在后續(xù)實際的體驗過程中,以及觀察用戶實際使用情況是:

當AI講完,用戶并不知道接下來該怎么辦,頓在那里里發(fā)呆。

當AI講完,用戶走神沒聽清楚,也忘記了前面“重復(fù)一遍”的命令列表。脫口而出你說啥?

問題2:一開始用戶拿到這一串命令的時候,其實是不知所措的,就好比跟你念了一段說明書。因為信息過載,而可能會遺漏掉某些信息。

這就是語音交互的尷尬所在,操控命令無法圖形化顯示,只能想辦法在用戶需要的時候提示。(這就非常考量出現(xiàn)的時機)而交代也需要細節(jié),比如:

AI:說“繼續(xù)”進入下一步。

用戶:繼續(xù)進入下一步。我們真的不希望用戶如此表述。

問題3:我們期望用戶的表述,與預(yù)想不符,而修訂后的是

助手:進入下一步請說“繼續(xù)”

類似的例子還能列舉很多,無論是GUI還是VUI,對用戶一股腦呈現(xiàn),不加以管理是非常不負責(zé)的。

在自然語言處理領(lǐng)域,特別是純語言的表述,邏輯順序非常非常重要。所以我提煉成,內(nèi)容展示合理程度,故而列為評測點。

5. 兜底處理表現(xiàn)

盡管我們都希望自己的智能助手能夠給予最好的回復(fù)。

而在實際的業(yè)務(wù)中,總會有一些搞不定的情況。

此處搞不定分為兩種,一種情況是,AI聽懂了,但是需求超出范圍,如何回復(fù)?

另外一種情況是,AI真的沒聽懂,但是能猜測一個大概,但拿不準,如何回復(fù)?

實際業(yè)務(wù)中的解決方案,每個業(yè)務(wù)單元處理均不一致。

私以為常見的處理方案如下。

下面的這個例子中,有什么理財推薦我想買理財其實意圖近似,但是AI則根據(jù)自己的理解,給予了兩種不同的處理方案。

下面的三個例子中,其實都是歸屬于成功理解意圖,但是回復(fù)不一致。

案例1,采用閑聊接話的方式,顯然是不過關(guān)的。(這類不過關(guān)真的非常多)

而案例2和案例3,則是相對過關(guān)的。

案例2和案例3,都無法直接滿足,雖然方向不同,但也是努力兜底,為用戶解決問題。

一種是通過下載APP作為解決方案,一種是交給導(dǎo)航去處理,提供解決方案。這兩種選擇的背后,都是可以產(chǎn)生商業(yè)價值的。

所以兜底回復(fù)的表現(xiàn),衡量的是,能夠為用戶,為公司帶來多少價值。故而列為評測點。

6. 階段性結(jié)尾

寫東西不光光是羅列和定義評測點是什么,筆者更期望在每個點上,加入更多的業(yè)務(wù)思考和理解。

實際上,原本在【服務(wù)提供】這個維度,有更多評測點去列舉,受應(yīng)用性所限,刪掉的一些內(nèi)容。

用提問的方式,列舉一下我刪除掉的指標。

第(6)點,列舉一個例子,特別跟我們工作中一樣,馬總下周去北京出差,你幫忙安排一下相關(guān)行程。然后秘書會溝通具體時間,航班的班次,酒店,路上的交通,出差相關(guān)的事項提醒以及資料。當這類事情,交付給AI的時候,AI如何處理。

第(7)點,智能助理可以出現(xiàn)的地方,麥克風(fēng),揚聲器,wifi模塊,就可以使用語音交流了,如果有屏幕,則多一種點觸交互。那么這意味著智能助理,可以存在的載體非常多,手表/環(huán)、手機、電腦、眼鏡、耳機、音箱、車載硬件等任何地方。那么當用戶在不同場景的下的需求,到了另外的地方,如何對人類提供反饋。

第(8)點,開放域閑聊,解決用戶的寂寞問題。要知道,“樹洞”也是一種待滿足的需求。表現(xiàn)得最好的是電影《Her》里面的薩曼莎,不熟悉這個電影的朋友可以去B站搜下內(nèi)容。其次表現(xiàn)得最好的,我所知道的,應(yīng)該是被很多人調(diào)戲了這些年的微軟小冰了。

(6)、(7)、(8)三點畢竟高難度,雖然想過方案,但是對絕大多數(shù)智能助手而言,相對低頻,故而棄之。當然也可以把這些評測點納入,作為加分項。如果能實現(xiàn)得比較好,那就是亮點,甚至是當成重要賣點去贏得市場競爭力!

當用戶提出需求后,AI先理解,后反饋,這個反饋表現(xiàn),就是本文【服務(wù)提供】維度各個考量角度。

我們都知道那個著名的公式:用戶價值=(新體驗-舊體驗)-替換成本。前段時間讀《俞軍產(chǎn)品方法論》時,更是加深了理解。

我們?nèi)绾吾尫臕I的能力去革新體驗,盡量提升(新體驗)的價值。

同時用戶(替換成本)是什么,如何降低。如何兩頭用力,最大化創(chuàng)造用戶價值。

此為,我輩中人,反復(fù)思考的命題。

以上,關(guān)于第二大維度【服務(wù)提供】的考量部分,就此完結(jié)。

后續(xù)文章會補充余下的部分,并以相同的形式去進行補充解釋和完善:

  • 【交互流暢】——當用戶與AI進行交互的時候,重點就交互反饋過程中的性能指標,體驗是否流暢來設(shè)計評測指標。
  • 【人格特質(zhì)】——智能助手是否具備足夠的魅力/人格化特質(zhì),就情緒表現(xiàn),情商,共情、個性化、擬人化程度來設(shè)計評測指標。

謝謝你看到了這里,有疑問,可以在留言區(qū)評論與作者深入討論。

相關(guān)閱讀

如何評測語音助手的智能程度(1):意圖理解

 

作者:飯大官人,不折騰會死星人,微信公眾號:fanfan19860403《游戲運營:高手進階之路》作者。熟悉游戲領(lǐng)域、人工智能-自然語言處理領(lǐng)域。

本文由 @飯大官人 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自?Unsplash,基于 CC0 協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 關(guān)于冰箱加屏、WiFi模塊、冰箱商城、語音交互的事情2017年我在美的就做過了;而關(guān)于通過AI問什么問題直接導(dǎo)向?qū)?yīng)的服務(wù),這個跟客服機器人其實是一回事。

    來自安徽 回復(fù)
    1. 單論和多輪邏輯和產(chǎn)品實現(xiàn)的結(jié)果是不一樣的,如果你是單輪,理解后直接給一個GUI的交互,那多輪絕對不是這樣~

      來自廣東 回復(fù)
  2. 我餓了,AI應(yīng)該問我想吃什么然后跳轉(zhuǎn)到我的外賣APP上,搜索好了讓我選擇 ?? ?? ??
    什么時候AI真的變成了賈維斯就厲害了

    來自安徽 回復(fù)
    1. 在此處應(yīng)該有產(chǎn)品的視角。
      ——————
      我餓了這個實在是太寬泛,選擇可以很多。
      取決于產(chǎn)品定位
      如果你是平臺級助手,就應(yīng)該給你推薦幾種不同的服務(wù)(去餐廳,點外賣)做選擇。
      如果你是業(yè)務(wù)型助手,就直接就你過往的餐飲喜好,或者你的健康數(shù)據(jù),做推薦。

      來自湖北 回復(fù)