用可量化操作打造AI好聲音
本文將為大家分享實(shí)戰(zhàn)經(jīng)驗(yàn):團(tuán)隊(duì)如何評(píng)估和影響語音合成的效果,從而幫助AI“說人話”。
AI產(chǎn)品“能說話”由基礎(chǔ)算法和交互設(shè)計(jì)師來保障,但是說的話能不能讓你聽懂、是否像人,就要考驗(yàn)語音合成的功力了。本文將用實(shí)戰(zhàn)經(jīng)驗(yàn)分享:團(tuán)隊(duì)如何評(píng)估和影響語音合成的效果,從而幫助AI“說人話”。
一、評(píng)估原則
二、方法選擇
【MOS評(píng)價(jià)法】一般用于單一語音庫的合成水平評(píng)估。選擇了行業(yè)相對(duì)通用的“MOS評(píng)價(jià)法”,即主觀質(zhì)量評(píng)分法 Mean Opinion Score,進(jìn)行主觀評(píng)價(jià)。用戶根據(jù)聽到的聲音質(zhì)量,在李克特5級(jí)量表中給出一個(gè)主觀評(píng)分評(píng)價(jià)質(zhì)量?jī)?yōu)劣,1最差-5最優(yōu)。
【注】MOS評(píng)價(jià)法初期用于語音通訊中的語音質(zhì)量評(píng)估,常用李克特5級(jí)量表。近年隨著語音合成技術(shù)的出現(xiàn),這一評(píng)價(jià)工具被應(yīng)用于合成語音效果的評(píng)估,行業(yè)均值3.5,高于這個(gè)分?jǐn)?shù)則被認(rèn)為高于行業(yè)一般水平。但2017-2018年見,隨著語料庫的迅速積累、語音合成技術(shù)也不斷完善,行業(yè)均值有所提升。
(1)我們?yōu)樽约寒a(chǎn)品所用的合成語音定下的最基本評(píng)價(jià)原則:是否像人。像人ok,不像out!所以會(huì)涉及到一個(gè)最主要的評(píng)估指標(biāo)(MKPI)『還原度』。為了得到合成語音在MKPI上的表現(xiàn),需要將合成語音與人聲比較,還原度高=像人=ok,還原度低=不像人=out!
(2)為了獲取合成音相較人聲的還原度,讓指標(biāo)可以量化,做了指標(biāo)拆解:用戶在充分認(rèn)識(shí)某一人聲特質(zhì)的基礎(chǔ)上,比較合成音對(duì)「人聲特質(zhì)的保留水平」,以及在一句話中「特質(zhì)保留水平是否穩(wěn)定」。
(3)還是有點(diǎn)抽象,那就將指標(biāo)進(jìn)行操作定義:所以在專家打分和文獻(xiàn)研究的基礎(chǔ)上,確定了3個(gè)一級(jí)指標(biāo)及其下6個(gè)二級(jí)指標(biāo)。
(4)還原度/mos評(píng)價(jià)維度釋義
- 可懂度-TTS的播報(bào)是否能讓用戶聽懂(語音準(zhǔn)確清晰);
- 流暢性-字與字、句子成分之間的連接是否流暢自然;
- 音色-還原度TTS播報(bào)的音色是否令用戶滿意;
- 語速-TTS播報(bào)的速度是否讓用戶感覺舒適友好;
- 語調(diào)-TTS播報(bào)的語調(diào)是否穩(wěn)定?語調(diào)尤其字音是否發(fā)音準(zhǔn)確?
【ABX迫選法】一般用于不同版本迭代效果/競(jìng)品評(píng)估。選擇心里測(cè)量工具——迫選量表。設(shè)計(jì)單盲實(shí)驗(yàn)施測(cè),用戶在聽到的A\B\X\……兩兩配對(duì)的聲音中,選擇一個(gè)主觀認(rèn)為較人聲原聲還原度最高的。最終統(tǒng)計(jì)A\B\X\……各自頻次,頻次較高的版本較好。
三、建議實(shí)施步驟
【MOS評(píng)價(jià)法】從6個(gè)維度對(duì)各條語音進(jìn)行mos評(píng)分,發(fā)現(xiàn)短板、比較與人聲的差異。
- 測(cè)試前培訓(xùn)用戶,為用戶播放評(píng)價(jià)演示素材,并確保用戶明確評(píng)價(jià)方法。發(fā)放紙質(zhì)mos評(píng)價(jià)表
- 用戶戴耳機(jī),主持人發(fā)用筆記本電腦隨機(jī)為用戶播放待測(cè)試語音
- 人聲、合成音按內(nèi)容分組配對(duì)。主持人隨機(jī)播放各組語料
- 每一句語料播放完畢,邀請(qǐng)用戶對(duì)該句語料進(jìn)行6個(gè)維度的mos評(píng)分
- 全部施測(cè)完成,主試統(tǒng)計(jì)各維度/總體mos評(píng)分均值,比較各產(chǎn)品的總體mos水平,確定相對(duì)優(yōu)劣。以下為各維度/總體比較標(biāo)準(zhǔn),其中3.5分為行業(yè)平均水平
【ABX迫選法】人聲PK多版本合成語音,分別比較集內(nèi)內(nèi)容與集外內(nèi)容的還原度。
- 主持人為用戶介紹評(píng)價(jià)方式,并發(fā)放紙質(zhì)A/B/X量表
- 用戶戴耳機(jī),主持人測(cè)試筆記本電腦
- 人聲、多版本合成音按內(nèi)容分組配對(duì)。主持人隨機(jī)播放各組語料
- 播放后邀請(qǐng)用戶配對(duì)呈現(xiàn)的聲音進(jìn)行比較,并作出選擇:A/B/X
- 全部施測(cè)完成,主試統(tǒng)計(jì)選擇頻次。以下為評(píng)價(jià)標(biāo)準(zhǔn)
【注】集內(nèi)內(nèi)容:語音合成的訓(xùn)練集中的人聲語料,因?yàn)樽鲞^針對(duì)性的訓(xùn)練,所以該內(nèi)容生成質(zhì)量輪上比集外內(nèi)容更好;集外內(nèi)容:相對(duì)集內(nèi)內(nèi)容的概念,從未進(jìn)行過針對(duì)訓(xùn)練的隨機(jī)挑選的語料。
四、合成算法比較
語音合成算法發(fā)展也是與時(shí)俱進(jìn),算法選擇的成功可以事半功倍。(僅比較主流算法之間應(yīng)用場(chǎng)景和優(yōu)劣,詳細(xì)算法原理介紹的文章很多不一一列出)
按出現(xiàn)的年代由遠(yuǎn)及近排列,如下表:
本文聯(lián)合作者:
于爽 | 網(wǎng)易杭研不高級(jí)用戶研究員,做了一年半智能音箱
利瑩 | 現(xiàn)回歸高校音樂管理專業(yè)的人民教師,前網(wǎng)易人工智能事業(yè)部策劃
參考文獻(xiàn):
1. 吳志勇 ,蔡蓮紅,《語音合成技術(shù)的原理》,清華大學(xué)計(jì)算機(jī)系智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,2007
2. 語音合成技術(shù)概述?http://www.cnblogs.com/mengnan/p/9474111.html
本文由 @鋼镚兒yu 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
- 目前還沒評(píng)論,等你發(fā)揮!