AI PM老司機(jī)告訴你:如何評(píng)測(cè)聲紋識(shí)別系統(tǒng)?
當(dāng)我在和別人介紹聲紋識(shí)別的時(shí)候,大家總會(huì)有各種疑問(wèn),聲紋識(shí)別準(zhǔn)確率怎樣?感冒了能識(shí)別出來(lái)嗎?故意變聲能否識(shí)別?模仿別人的聲音能否識(shí)別?被人錄音了是否就能用于驗(yàn)證?問(wèn)題大同小異,總結(jié)起來(lái)一句話,這玩意靠譜么?
當(dāng)你準(zhǔn)備在你的產(chǎn)品上增加聲紋識(shí)別這一黑科技的時(shí)候,你除了需要清楚知道聲紋識(shí)別能做什么之外,還需要了解它能做到什么程度。在原來(lái)的文章中科普了聲紋識(shí)別這一黑科技的知識(shí)(見(jiàn):《AI PM老司機(jī)帶你認(rèn)識(shí)聲音黑科技:聲紋識(shí)別》),里面也提到聲紋識(shí)別算法的技術(shù)指標(biāo),除了這部分常規(guī)技術(shù)指標(biāo)外,本文重點(diǎn)介紹聲紋識(shí)別在實(shí)際應(yīng)用場(chǎng)景中的性能指標(biāo):
- 環(huán)境噪音魯棒性
- 信道魯棒性
- 語(yǔ)音內(nèi)容魯棒性
- 時(shí)變魯棒性
- 表達(dá)方式魯棒性
- 群體普適性
- 假冒攻擊防范能力
1. 環(huán)境噪音魯棒性
不同場(chǎng)景下的產(chǎn)品都會(huì)有不同的環(huán)境噪音,即使是同一產(chǎn)品也會(huì)有不同的背景環(huán)境,比如智能音箱,在家庭使用和在公司使用,環(huán)境噪音也會(huì)不一樣,在使用聲紋識(shí)別前需要對(duì)這一黑科技的環(huán)境噪音魯棒性進(jìn)行評(píng)估,這一指標(biāo)表明此技術(shù)在不同環(huán)境噪音下的適應(yīng)能力,避免在公司調(diào)試時(shí)都是好好的,一到用戶(hù)環(huán)境就不靈光了。為了測(cè)試聲紋識(shí)別系統(tǒng)的環(huán)境噪音魯棒性,可以收集產(chǎn)品在不同應(yīng)用環(huán)境下的語(yǔ)音數(shù)據(jù)進(jìn)行評(píng)測(cè)。
2. 信道魯棒性
信道即為聲音信號(hào)傳輸?shù)耐ǖ?,由于聲音從麥克風(fēng)采集后到聲紋識(shí)別系統(tǒng)中經(jīng)過(guò)了很多環(huán)節(jié),包括有不同的麥克風(fēng)類(lèi)型、不同的音頻CODEC、不同的傳輸通道等,這些都會(huì)對(duì)聲紋特征存在影響,還是以智能音箱來(lái)舉例,假如在注冊(cè)時(shí)是用手機(jī)端app,而驗(yàn)證使用時(shí)則是直接對(duì)著音箱說(shuō)話,手機(jī)MIC和音箱MIC就是兩個(gè)不同的信道,這種情況下可能會(huì)降低驗(yàn)證的準(zhǔn)確率,在專(zhuān)業(yè)術(shù)語(yǔ)上叫信道失配。因此,除了在產(chǎn)品層面做規(guī)避,也需要考慮聲紋識(shí)別技術(shù)在不同信道中的表現(xiàn)。
3. 語(yǔ)音內(nèi)容魯棒性
我們說(shuō)話內(nèi)容都可能包含了數(shù)字 、中文、英文,在讀特定內(nèi)容和說(shuō)口頭禪的時(shí)候,我們會(huì)不自覺(jué)表現(xiàn)不一樣的說(shuō)話方式,比如說(shuō)口頭禪或熟悉的話時(shí)就會(huì)表現(xiàn)得很自然隨意,而拿著文稿照著念時(shí),就顯得一本正經(jīng)。在做聲紋識(shí)別技術(shù)評(píng)估時(shí),也需要考慮到對(duì)語(yǔ)音內(nèi)容的魯棒性。
4. 時(shí)變魯棒性
個(gè)體變化通過(guò)長(zhǎng)時(shí)的積累,會(huì)對(duì)個(gè)體的發(fā)音有特點(diǎn)有影響,進(jìn)而影響聲紋識(shí)別系統(tǒng)的識(shí)別性能。好的聲紋識(shí)別系統(tǒng)能在一年,甚至在三年內(nèi)都不需要重新注冊(cè)而能正常使用,否則你可能會(huì)遇到,三個(gè)月前注冊(cè)了聲紋用著都是好好的,三個(gè)月后怎么就不認(rèn)人了呢,這就尷尬了。
5. 表達(dá)方式魯棒性
說(shuō)話人的表達(dá)方式對(duì)聲紋識(shí)別的性能也有影響,比如情感的變化、語(yǔ)速的變化、音量的變化和聊天的區(qū)別。還是以智能音箱為例,你在注冊(cè)聲紋時(shí)是很開(kāi)心的,當(dāng)有一天,你心情不好想和TA聊天時(shí),卻怎么也不認(rèn)你了,這時(shí)你砸了TA的心都有了。同樣,在做聲紋識(shí)別評(píng)估時(shí)都需要考慮到在不同表達(dá)方式下的表現(xiàn)。
6. 群體普適性
群體是具有某種(些)共同特征的不同個(gè)體組成的集合。不同群體之間存在某些特征的差異,聲音上的差異就是其中之一,這種差異會(huì)影響聲紋識(shí)別系統(tǒng)的普適性。這種差異主要體現(xiàn)在性別、年齡、地域劃分的不同人群人聲紋差異。
7. 假冒攻擊防范能力
今年315用照片直接攻破人臉識(shí)別系統(tǒng)的事仍讓大家對(duì)生物識(shí)別系統(tǒng)有所擔(dān)心,同樣,聲紋識(shí)別系統(tǒng)在用聲音進(jìn)行身份認(rèn)證的過(guò)程中,也會(huì)存在用假冒聲音來(lái)企圖騙過(guò)系統(tǒng),因此,聲紋識(shí)別系統(tǒng)應(yīng)具備活體檢測(cè)技術(shù),應(yīng)正確鑒別聲音的用戶(hù)身份,能夠拒絕假冒的驗(yàn)證信息,對(duì)于利用各種手段形成的假冒聲音,應(yīng)該能正確區(qū)分。
假冒聲音包括通過(guò)如下幾種方式生成的聲音,聲紋識(shí)別系統(tǒng)應(yīng)提供對(duì)如下幾種攻擊的防范能力。
7.1.波形拼接攻擊
攻擊者將目標(biāo)說(shuō)話人的語(yǔ)音錄制下來(lái),通過(guò)波形編輯工具,拼接出指定內(nèi)容的語(yǔ)音數(shù)據(jù),以放音的方式假冒目標(biāo)說(shuō)話人,試圖以目標(biāo)人身份通過(guò)聲紋識(shí)別系統(tǒng)的認(rèn)證。
7.2.錄音重放攻擊
攻擊者錄制目標(biāo)說(shuō)話人的語(yǔ)音進(jìn)行播放,以目標(biāo)人身份試圖通過(guò)聲紋識(shí)別系統(tǒng)的認(rèn)證。
7.3.語(yǔ)音合成攻擊
攻擊者用語(yǔ)音合成技術(shù)生成目標(biāo)說(shuō)話人的語(yǔ)音,以放音的方式假冒目標(biāo)說(shuō)話人,試圖以目標(biāo)人的身份通過(guò)聲紋識(shí)別系統(tǒng)的認(rèn)證,
7.4.語(yǔ)音轉(zhuǎn)換攻擊
攻擊者用語(yǔ)音轉(zhuǎn)換技術(shù)得到目標(biāo)說(shuō)話人的語(yǔ)音,以放音的方式假冒目標(biāo)說(shuō)話人,試圖以目標(biāo)說(shuō)話人的身份通過(guò)聲紋識(shí)別系統(tǒng)進(jìn)行的認(rèn)證,
7.5.語(yǔ)音模仿攻擊
攻擊者通過(guò)模仿目標(biāo)說(shuō)話人,試圖以目標(biāo)說(shuō)話人的身份通過(guò)聲紋識(shí)別系統(tǒng)的認(rèn)證。
8. 總結(jié)
聲紋除存在個(gè)體差異外,個(gè)體的生理特征和使用環(huán)境的變化也會(huì)對(duì)其特性造成一定影響,聲紋識(shí)別系統(tǒng)在上述各種條件下的魯棒性是在實(shí)際應(yīng)用中必須考慮的。
當(dāng)你面對(duì)多家聲紋識(shí)別廠家時(shí),你需要考慮這廠家的技術(shù)與你的應(yīng)用場(chǎng)景是否匹配,正如世間妹紙帥哥那么多,你要找的,不是最好的那位,而是最合適的那位。
作者:Micos,昵稱(chēng):不知道,在人工智能浪潮中推波助瀾的產(chǎn)品經(jīng)理,致力于用智能語(yǔ)音實(shí)現(xiàn)人與機(jī)器最自然的交互方式。
本文由 @Micos 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自pixabay,基于CC0協(xié)議
您好,我是一個(gè)小白AI產(chǎn)品,您的兩篇關(guān)于聲紋的文章,我想縮寫(xiě)簡(jiǎn)略之后,放在我的小號(hào)uxeason上,只是作為小白做的一些功課輸出,沒(méi)有商業(yè)利益輸送。我在文末會(huì)注明您的知乎和本站的專(zhuān)欄名稱(chēng),閱讀原文加上這篇連接。今天有點(diǎn)晚,我一般早起推送,冒昧的先發(fā)出去了,如果您覺(jué)得不妥,請(qǐng)留言,我會(huì)第一時(shí)間刪除。打擾了。
這是我讀過(guò)的最魯棒的文章??
臥槽。遇到聲紋同行真驚喜
一起勾搭 ??