国产中文字幕一区二区,中文字幕乱码人妻无码久久

搜索

APP

起點(diǎn)課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

AI產(chǎn)品經(jīng)理需要了解的語音交互評價指標(biāo)

黃釗hanniman

2017-11-24

7 評論 24106 瀏覽 192 收藏

15 分鐘

本文主要從5大方面具體介紹了現(xiàn)在行業(yè)內(nèi)對語音交互系統(tǒng)的常見評價指標(biāo)，分別是語音識別、自然語言處理、語音合成、對話系統(tǒng)和整體用戶數(shù)據(jù)指標(biāo)。enjoy~

最近，在飯團(tuán)“AI產(chǎn)品經(jīng)理大本營”里，有團(tuán)員提問：如何制定針對自然語言語音交互系統(tǒng)的評價體系？有沒有通用的標(biāo)準(zhǔn)？例如在車載環(huán)境中，站在用戶角度，從客觀，主觀角度的評價指標(biāo)？

上周，我在專屬微信群內(nèi)拋出了這個問題，當(dāng)晚，胡含、我偏笑、艷龍等朋友就分享了不少干貨心得；最近幾天，在飛艷同學(xué)的協(xié)助整理下，我又補(bǔ)充了一些信息，最終形成這篇文章，以饗大家。

一、語音識別ASR

語音識別（Automatic Speech Recognition），一般簡稱ASR，是將聲音轉(zhuǎn)化為文字的過程，相當(dāng)于人類的耳朵。

1、識別率

看純引擎的識別率，以及不同信噪比狀態(tài)下的識別率（信噪比模擬不同車速、車窗、空調(diào)狀態(tài)等），還有在線/離線識別的區(qū)別。

實際工作中，一般識別率的直接指標(biāo)是“WER（詞錯誤率，Word Error Rate）”

定義：為了使識別出來的詞序列和標(biāo)準(zhǔn)的詞序列之間保持一致，需要進(jìn)行替換、刪除或者插入某些詞，這些插入、替換或刪除的詞的總個數(shù)，除以標(biāo)準(zhǔn)的詞序列中詞的總個數(shù)的百分比，即為WER。

公式為：

Substitution——替換
Deletion——刪除
Insertion——插入
N——單詞數(shù)目

3點(diǎn)說明：

WER可以分男女、快慢、口音、數(shù)字/英文/中文等情況，分別來看。
因為有插入詞，所以理論上WER有可能大于100%，但實際中、特別是大樣本量的時候，是不可能的，否則就太差了，不可能被商用。
站在純產(chǎn)品體驗角度，很多人會以為識別率應(yīng)該等于“句子識別正確的個數(shù)/總的句子個數(shù)”，即“識別（正確）率等于96%”這種，實際工作中，這個應(yīng)該指向“SER（句錯誤率，Sentence Error Rate）”，即“句子識別錯誤的個數(shù)/總的句子個數(shù)”。不過據(jù)說在實際工作中，一般句錯誤率是字錯誤率的2~3倍，所以可能就不怎么看了。

2、語音喚醒相關(guān)的指標(biāo)

先需要介紹下語音喚醒（Voice Trigger，VT）的相關(guān)信息。

（1）語音喚醒的需求背景

近場識別時，比如使用語音輸入法時，用戶可以按住手機(jī)上siri的語音按鈕，直接說話（結(jié)束之后松開）；近場情況下信噪比（Signal to Noise Ratio, SNR）比較高，信號清晰，簡單算法也能做到有效可靠。

但是在遠(yuǎn)場識別時，比如在智能音箱場景，用戶不能用手接觸設(shè)備，需要進(jìn)行語音喚醒，相當(dāng)于叫這個AI（機(jī)器人）的名字，引起ta的注意，比如蘋果的“Hey Siri”，Google的“OK Google”，亞馬遜Echo的“Alexa”等。

（2）語音喚醒的含義

簡單來說是“喊名字，引起聽者（AI）的注意”。如果語音喚醒判斷結(jié)果是正確的喚醒（激活）詞，那后續(xù)的語音就應(yīng)該被識別；否則，不進(jìn)行識別。

（3）語音喚醒的相關(guān)指標(biāo)

a.?喚醒率。叫AI的時候，ta成功被喚醒的比率。
b.?誤喚醒率。沒叫AI的時候，ta自己跳出來講話的比率。如果誤喚醒比較多，特別比如半夜時，智能音箱突然開始唱歌或講故事，會特別嚇人的……
c.?喚醒詞的音節(jié)長度。一般技術(shù)上要求，最少3個音節(jié)，比如“OK Google”和“Alexa”有四個音節(jié)，“Hey Siri”有三個音節(jié)；國內(nèi)的智能音箱，比如小雅，喚醒詞是“小雅小雅”，而不能用“小雅”——如果音節(jié)太短，一般誤喚醒率會比較高。
d.?喚醒響應(yīng)時間。之前看過傅盛的文章，說世界上所有的音箱，除了Echo和他們做的小雅智能音箱能達(dá)到1.5秒，其他的都在3秒以上。
e.?功耗（要低）。看過報道，說iPhone 4s出現(xiàn)Siri，但直到iPhone 6s之后才允許不接電源的情況下直接喊“Hey Siri”進(jìn)行語音喚醒；這是因為有6s上有一顆專門進(jìn)行語音激活的低功耗芯片，當(dāng)然算法和硬件要進(jìn)行配合，算法也要進(jìn)行優(yōu)化。

以上a、b、d相對更重要。

（4）其他

涉及AEC（語音自適應(yīng)回聲消除，Automatic Echo Cancellation）的，還要考察WER相對改善情況。

二、自然語言處理NLP

自然語言處理（Natural Language Processing），一般簡稱NLP，通俗理解就是“讓計算機(jī)能夠理解和生成人類語言”。

1、準(zhǔn)確率、召回率

附上之前文章《AI產(chǎn)品經(jīng)理需要了解的數(shù)據(jù)標(biāo)注工作入門》中，分享過的一段解釋：

準(zhǔn)確率：識別為正確的樣本數(shù)/識別出來的樣本數(shù)
召回率：識別為正確的樣本數(shù)/所有樣本中正確的數(shù)

舉個栗子：全班一共30名男生、20名女生。需要機(jī)器識別出男生的數(shù)量。本次機(jī)器一共識別出20名目標(biāo)對象，其中18名為男性，2名為女性。則

精確率=18/（18+2）=0.9
召回率=18/30=0.6

再補(bǔ)充一個圖來解釋：

2、F1值（精準(zhǔn)率和召回率的調(diào)和平均數(shù)）

模型調(diào)優(yōu)后追求F1值提升，準(zhǔn)確率召回率單獨(dú)下降在一個小區(qū)間內(nèi)，整體F1值的增量也是分區(qū)間看（F1值在60%內(nèi)，與60%以上肯定是不一樣的，90%以上可能只追求1%的提升）。

P是精準(zhǔn)率，R是召回率，F(xiàn)a是在F1基礎(chǔ)上做了賦權(quán)處理：Fa=（a^2+1）PR/（a^2P+R）

三、語音合成TTS

語音合成（Text-To-Speech），一般簡稱TTS，是將文字轉(zhuǎn)化為聲音（朗讀出來），類比于人類的嘴巴。大家在Siri等各種語音助手中聽到的聲音，都是由TTS來生成的，并不是真人在說話。

主觀測試（自然度），以MOS為主：

MOS（Mean Opinion Scores），專家級評測（主觀）；1-5分，5分最好。
ABX，普通用戶評測（主觀）。讓用戶來視聽兩個TTS系統(tǒng)，進(jìn)行對比，看哪個好。

客觀測試：

對聲學(xué)參數(shù)進(jìn)行評估，一般是計算歐式距離等（RMSE，LSD）。
對工程上的測試：實時率（合成耗時/語音時長），流式分首包、尾包，非流式不考察首包；首包響應(yīng)時間（用戶發(fā)出請求到用戶感知到的第一包到達(dá)時間）、內(nèi)存占用、CPU占用、3*24小時crash率等。

四、對話系統(tǒng)

對話系統(tǒng)（Dialogue System），簡單可以理解為Siri或各種Chatbot所能支持的聊天對話體驗。

1、用戶任務(wù)達(dá)成率（表征產(chǎn)品功能是否有用以及功能覆蓋度）

（1）比如智能客服，如果這個Session最終是以接入人工為結(jié)束的，那基本就說明機(jī)器的回答有問題?；蛘咧貜?fù)提供給用戶相同答案等等。

（2）分專項或分意圖的統(tǒng)計就更多了，不展開了。

2、對話交互效率

比如用戶完成一個任務(wù)的耗時、回復(fù)語對信息傳遞和動作引導(dǎo)的效率、用戶進(jìn)行語音輸入的效率等（可能和打斷，One-shot等功能相關(guān)）；具體定義，各個產(chǎn)品自己決定。

3、根據(jù)對話系統(tǒng)的類型分類，有些區(qū)別。

（1）閑聊型

CPS（Conversations Per Session，平均單次對話輪數(shù)）。這算是微軟小冰最早期提出的指標(biāo)，并且是小冰內(nèi)部的（唯一）最重要指標(biāo)；
相關(guān)性和新穎性。與原話題要有一定的相關(guān)性，但又不能是非常相似的話；
話題終結(jié)者。如果機(jī)器說過這句話之后，通常用戶都不會繼續(xù)接了，那這句話就會給個負(fù)分。

（2）任務(wù)型

留存率。雖然是傳統(tǒng)的指標(biāo)，但是能夠發(fā)現(xiàn)用戶有沒有形成這樣的使用習(xí)慣；留存的計算甚至可以精確到每個功能，然后進(jìn)一步根據(jù)功能區(qū)做歸類，看看用戶對哪類任務(wù)的接受程度較高，還可以從用戶的問句之中分析發(fā)出指令的習(xí)慣去針對性的優(yōu)化解析和對話過程；到后面積累的特征多了，評價機(jī)制建立起來了，就可以上強(qiáng)化學(xué)習(xí)；比如：之前百度高考，教考生填報志愿，就是這么弄的；
完成度（即，前文提過的“用戶任務(wù)達(dá)成率”）。由于任務(wù)型最后總要去調(diào)一個接口或者觸發(fā)什么東西來完成任務(wù)，所以可以計算多少人進(jìn)入了這個對話單元，其中有多少人最后調(diào)了接口；
相關(guān)的，還有（每個任務(wù)）平均slot填入輪數(shù)或填充完整度。即，完成一個任務(wù)，平均需要多少輪，平均填寫了百分之多少的槽位slot。對于槽位的介紹，可詳見《填槽與多輪對話 | AI產(chǎn)品經(jīng)理需要了解的AI技術(shù)概念》。

（3）問答型

最終求助人工的比例（即，前文提過的“用戶任務(wù)達(dá)成率”相關(guān)）；
重復(fù)問同樣問題的比例；
“沒答案”之類的比例。

整體來說，行業(yè)一般PR宣傳時，會更多的提CPS。其他指標(biāo)看起來可能相對太瑣碎或不夠高大上，但是，實際工作中，可能CPS更多是面向閑聊型對話系統(tǒng)，而其他的場景，可能更應(yīng)該從“效果”出發(fā)。比如，如果小孩子哭了，機(jī)器人能夠“哭聲安慰”，沒必要對話那么多輪次，反而應(yīng)該越少越好。

4、語料自然度和人性化的程度

目前對于這類問題，一般是使用人工評估的方式進(jìn)行。這里的語料，通常不是單個句子，而是分為單輪的問答對或多輪的一個session。一般來講，評分范圍是1~5分：

1分或2分：完全答非所問，以及含有不友好內(nèi)容或不適合語音播報的特殊內(nèi)容；
3分：基本可用，問答邏輯正確；
4分：能解決用戶問題且足夠精煉；
5分：在4分基礎(chǔ)上，能讓人感受到情感及人設(shè)。

另外，為了消除主觀偏差，采用多人標(biāo)注、去掉極端值的方式，是當(dāng)前普遍的做法。

五、整體用戶數(shù)據(jù)指標(biāo)

常規(guī)互聯(lián)網(wǎng)產(chǎn)品，都會有整體的用戶指標(biāo)；AI產(chǎn)品，一般也會有這個角度的考量。

1、DAU（Daily Active User，日活躍用戶數(shù)，簡稱“日活”）

在特殊場景會有變化，比如在車載場景，會統(tǒng)計“DAU占比（占車機(jī)DAU的比例）”。

2、被使用的意圖豐富度（使用率>X%的意圖個數(shù)）。

3、可嘗試通過用戶語音的情緒信息和語義的情緒分類評估滿意度。

尤其對于生氣的情緒檢測，這些對話樣本是可以挑選出來分析的。比如，有公司會統(tǒng)計語音中有多少是罵人的，以此大概了解用戶情緒。還比如，在同花順手機(jī)客戶端中，拉到最底下，有個一站式問答功能，用戶對它說“怎么登錄不上去”和說“怎么老是登錄不上去”，返回結(jié)果是不一樣的——后者，系統(tǒng)檢測到負(fù)面情緒，會提示轉(zhuǎn)接人工。

結(jié)語

本篇分享，介紹了現(xiàn)在行業(yè)內(nèi)對語音交互系統(tǒng)的常見評價指標(biāo)，一方面，是提供給各位AI產(chǎn)品經(jīng)理以最接地氣的相關(guān)信息；另一方面，也是希望大家基于這些指標(biāo)，打造出更好的產(chǎn)品體驗效果。

#專欄作家#

黃釗（hanniman），圖靈機(jī)器人-人才戰(zhàn)略官，人人都是產(chǎn)品經(jīng)理專欄作家，前騰訊產(chǎn)品經(jīng)理，微信公眾號/知乎/在行/飯團(tuán)“hanniman”。5年人工智能實戰(zhàn)經(jīng)驗，8年互聯(lián)網(wǎng)行業(yè)背景?！叭斯ぶ悄墚a(chǎn)品經(jīng)理”概念的推動者，被AI同行廣泛傳播的200頁P(yáng)PT《人工智能產(chǎn)品經(jīng)理的新起點(diǎn)》的作者。關(guān)注人機(jī)交互（特別是語音交互）在手機(jī)、機(jī)器人、智能汽車、智能家居、AR/VR等前沿場景的可行性和產(chǎn)品體驗。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，不得轉(zhuǎn)載

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

AI 產(chǎn)品經(jīng)理入門手冊文章被收錄于該專欄

共 19 篇文章78520 人已學(xué)習(xí)

語音交互設(shè)計怎么做？文章被收錄于該專欄

共 26 篇文章38892 人已學(xué)習(xí)

黃釗hanniman

前騰訊PM，11年AI經(jīng)驗，干貨首發(fā)公眾號hanniman

61篇作品 972411總閱讀量

零售SaaS產(chǎn)品架構(gòu)設(shè)計實踐

05-057832 瀏覽

從0到1：新用戶激活策略全攻略地圖

09-112906 瀏覽

關(guān)閉了廣告業(yè)務(wù)的WPS，在給廣告行業(yè)敲響警鐘

12-224759 瀏覽

密碼強(qiáng)度計有哪些局限性？

06-093674 瀏覽

拼多多如何拖價？

05-304854 瀏覽

評論

SLJwu

偶然在搜索資源的發(fā)現(xiàn)您公眾號，今天在這里又遇見了新入AI坑 PM一枚，向您多多學(xué)習(xí)

最近來自重慶回復(fù)
sally

請問：ppt鏈接失效了么？

最近來自上海回復(fù)
1. 黃釗hanniman 作者回復(fù)sally
  
  你好，可在我公眾號hanniman后臺回復(fù)“200”，有新的鏈接。
  
  最近來自北京回復(fù)
2. sally 回復(fù)黃釗hanniman
  
  非常感謝～
  
  最近來自上海回復(fù)
sally

請問：膠片鏈接失效了么？

最近來自上海回復(fù)
一碗白米飯

您覺得同花順的語音助手做的怎么樣，多多指教

最近來自浙江回復(fù)
想去鵝城

等著“鋼鐵俠的賈維斯”出世 ??

最近來自廣東回復(fù)