評估智能對話機器人的7大數(shù)據(jù)指標

0 評論 11694 瀏覽 61 收藏 8 分鐘

編輯導語:當今人們已經(jīng)進入到一個大數(shù)據(jù)時代,人們每天都在生產(chǎn)者各種各樣的數(shù)據(jù),這些數(shù)據(jù)又在不斷被循環(huán)利用推動著行業(yè)和社會的進步。不同行業(yè)都有著不同的數(shù)據(jù)指標體系,本文作者對評估智能對話機器人的數(shù)據(jù)指標維度展開了梳理,與大家分享。

如果你正負責一款智能對話機器人產(chǎn)品,不管是軟件還是硬件,不管叫“小a”還是叫“小b”,總要遇到一個對于產(chǎn)品本身好壞的衡量指標的難題。如果你是leader更要弄清楚到底怎么給做這款產(chǎn)品的下屬制定OKR及考核指標。

其實,當前多數(shù)對話機器人產(chǎn)品都還是一些長遠戰(zhàn)略布局的產(chǎn)品定位,既不能要求它達成百萬千萬的gmv,也不能要求它實現(xiàn)app那樣的日活月活高留存。理解它的產(chǎn)品定位,理解當前你所在的對話機器人的領域,才能更清楚的去評判自家產(chǎn)品的好壞以及在競品中的排名地位。

智能對話機器人,或者有些公司會將其命名為“智能助理”“智能小助手”,多數(shù)是以“工具+閑聊”的組合方式出現(xiàn)的,因此通常支持多個領域的支持多輪對話。而市面上的產(chǎn)品形態(tài)也以是否有GUI分為純語音對話交互和多模態(tài)對話交互兩種。

而本文討論的目標產(chǎn)品主要聚焦在支持多模態(tài)對話交互的“工具+閑聊”的軟硬件產(chǎn)品。當然,單輪指令式機器人或只有VUI的純語音機器人也可以進行部分指標維度的借鑒,在此不做特別指出。

評估智能對話機器人產(chǎn)品的數(shù)據(jù)指標維度分為2大部分:產(chǎn)品維度指標、技術維度指標。本文重點聚焦產(chǎn)品維度的7大數(shù)據(jù)指標,同時給出3個核心技術維度指標供參考。

一、產(chǎn)品維度七大指標

1. 產(chǎn)品使用率

指標目的:分析用戶對于產(chǎn)品的感興趣度(與之相關的指標就是N日留存率,不在贅述)

指標含義:使用了對話機器人產(chǎn)品的用戶數(shù)占用戶總數(shù)或者曝光用戶數(shù)的比例。

計算公式:使用用戶數(shù) / 總用戶數(shù)或曝光用戶數(shù)。其中分母根據(jù)產(chǎn)品類型有區(qū)分:如果是硬件類產(chǎn)品那么分母則是所售出的硬件總數(shù);如果是軟件類產(chǎn)品,則要分2種情況:1.獨立對話機器人app則分母是每天打開app的用戶數(shù);2.寄生于主app上的對話機器人則分母是每天機器人入口的曝光用戶數(shù)。

統(tǒng)計周期:按日、周、月

2. 最終結果觸達率

指標目的:分析對話流程的流暢度

指標含義:使用了對話機器人產(chǎn)品的用戶在有效會話中有多少比例獲得了最終的結果(比如一段文本答案、一條圖文鏈接等)

計算公式:最終結果數(shù) / 會話session數(shù)

統(tǒng)計周期:按會話session,或按日

3. 結果準確率

指標目的:與上一個指標是關聯(lián)指標,用于分析結果的準確程度

指標含義:每次有效會話結束,雖然產(chǎn)品給予了用戶最終結果,但不一定是用戶想要的正確結果。

計算公式:反饋給用戶的正確的結果數(shù) / 反饋結果總數(shù)。其中分子的統(tǒng)計口徑有2種,一種是用戶反饋的好評度(如果產(chǎn)品設計有這樣的功能點),一種是人工抽樣。

統(tǒng)計周期:按日

4. 平均對話輪次

指標目的:分析任務型對話機器人的對話流程健康度

指標含義:某一類任務(或技能)的對話輪次的平均數(shù)

計算公式:某類任務的對話輪次/某類任務的對話總數(shù)

統(tǒng)計周期:按日

5. 跳出率

指標目的:分析對話機器人的產(chǎn)品設計友好度

指標含義:某一類任務(或技能)對話中斷的比例

計算公式:某類任務的對話中斷數(shù) /某類任務的對話總數(shù)

統(tǒng)計周期:按會話session,按日

6. 異常率

指標目的:分析對話機器人的異常率找出關鍵問題并快速修復

指標含義:用戶使用對話機器人過程中的異常狀況出現(xiàn)的比例

計算公式:異常報錯數(shù) / 會話session數(shù)

統(tǒng)計周期:按時、日

7. 推薦結果點擊率

指標目的:分析有GUI的產(chǎn)品推薦內容的精準度

指標含義:在初始化場景或某類特定場景,產(chǎn)品給出推薦內容的用戶接受比例

計算公式:推薦答案或內容的點擊(或采納)次數(shù) / 推薦次數(shù)

統(tǒng)計周期:按會話session,按日

二、技術維度三大參考指標

1. 意圖識別準確率

指標目的:意圖識別直接影響最終結果是否準確,所以用于分析產(chǎn)品所涉及的領域內用戶意圖識別的準確率

指標含義:正確識別單次會話session用戶意圖識別的準確程度

2. 文本泛化能力

指標目的:好的泛化能力才能更好的支持人類語言表達的復雜性理解,也是nlp的核心指標

指標含義:對指定模塊進行抽樣,看是否支持提問文本、槽位等多種表達形式的識別

3. 糾錯/同義/歧義處理能力

指標目的:用戶進行文本/語音輸入時,有概率產(chǎn)生錯誤的、別名類的、或者有歧義的表達,而系統(tǒng)能否根據(jù)上下文識別準確的含義或給出多種含義的可能性則直接影響產(chǎn)品的用戶體驗

指標含義:對用戶的對話進行分析,找到三種細分場景的case進行抽樣或模型比對給出相應的正確處理比例

 

本文作者:丸子妹,微信公眾號:丸子筆記,歡迎隨時討論交流~

本文由 @丸子筆記 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!