山东熟女啪啪哦哦叫,少妇一级aa一区二区三区片

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

用可量化操作打造AI好聲音

鋼镚兒yu

2018-12-19

0 評(píng)論 4463 瀏覽 12 收藏

8 分鐘

本文將為大家分享實(shí)戰(zhàn)經(jīng)驗(yàn)：團(tuán)隊(duì)如何評(píng)估和影響語音合成的效果，從而幫助AI“說人話”。

AI產(chǎn)品“能說話”由基礎(chǔ)算法和交互設(shè)計(jì)師來保障，但是說的話能不能讓你聽懂、是否像人，就要考驗(yàn)語音合成的功力了。本文將用實(shí)戰(zhàn)經(jīng)驗(yàn)分享：團(tuán)隊(duì)如何評(píng)估和影響語音合成的效果，從而幫助AI“說人話”。

一、評(píng)估原則

二、方法選擇

【MOS評(píng)價(jià)法】一般用于單一語音庫的合成水平評(píng)估。選擇了行業(yè)相對(duì)通用的“MOS評(píng)價(jià)法”，即主觀質(zhì)量評(píng)分法 Mean Opinion Score，進(jìn)行主觀評(píng)價(jià)。用戶根據(jù)聽到的聲音質(zhì)量，在李克特5級(jí)量表中給出一個(gè)主觀評(píng)分評(píng)價(jià)質(zhì)量?jī)?yōu)劣，1最差-5最優(yōu)。

【注】MOS評(píng)價(jià)法初期用于語音通訊中的語音質(zhì)量評(píng)估，常用李克特5級(jí)量表。近年隨著語音合成技術(shù)的出現(xiàn)，這一評(píng)價(jià)工具被應(yīng)用于合成語音效果的評(píng)估，行業(yè)均值3.5，高于這個(gè)分?jǐn)?shù)則被認(rèn)為高于行業(yè)一般水平。但2017-2018年見，隨著語料庫的迅速積累、語音合成技術(shù)也不斷完善，行業(yè)均值有所提升。

（1）我們?yōu)樽约寒a(chǎn)品所用的合成語音定下的最基本評(píng)價(jià)原則：是否像人。像人ok，不像out！所以會(huì)涉及到一個(gè)最主要的評(píng)估指標(biāo)（MKPI）『還原度』。為了得到合成語音在MKPI上的表現(xiàn)，需要將合成語音與人聲比較，還原度高=像人=ok，還原度低=不像人=out！

（2）為了獲取合成音相較人聲的還原度，讓指標(biāo)可以量化，做了指標(biāo)拆解：用戶在充分認(rèn)識(shí)某一人聲特質(zhì)的基礎(chǔ)上，比較合成音對(duì)「人聲特質(zhì)的保留水平」，以及在一句話中「特質(zhì)保留水平是否穩(wěn)定」。

（3）還是有點(diǎn)抽象，那就將指標(biāo)進(jìn)行操作定義：所以在專家打分和文獻(xiàn)研究的基礎(chǔ)上，確定了3個(gè)一級(jí)指標(biāo)及其下6個(gè)二級(jí)指標(biāo)。

（4）還原度/mos評(píng)價(jià)維度釋義

可懂度-TTS的播報(bào)是否能讓用戶聽懂（語音準(zhǔn)確清晰）；
流暢性-字與字、句子成分之間的連接是否流暢自然；
音色-還原度TTS播報(bào)的音色是否令用戶滿意；
語速-TTS播報(bào)的速度是否讓用戶感覺舒適友好；
語調(diào)-TTS播報(bào)的語調(diào)是否穩(wěn)定？語調(diào)尤其字音是否發(fā)音準(zhǔn)確？

【ABX迫選法】一般用于不同版本迭代效果/競(jìng)品評(píng)估。選擇心里測(cè)量工具——迫選量表。設(shè)計(jì)單盲實(shí)驗(yàn)施測(cè)，用戶在聽到的A\B\X\……兩兩配對(duì)的聲音中，選擇一個(gè)主觀認(rèn)為較人聲原聲還原度最高的。最終統(tǒng)計(jì)A\B\X\……各自頻次，頻次較高的版本較好。

三、建議實(shí)施步驟

【MOS評(píng)價(jià)法】從6個(gè)維度對(duì)各條語音進(jìn)行mos評(píng)分，發(fā)現(xiàn)短板、比較與人聲的差異。

測(cè)試前培訓(xùn)用戶，為用戶播放評(píng)價(jià)演示素材，并確保用戶明確評(píng)價(jià)方法。發(fā)放紙質(zhì)mos評(píng)價(jià)表
用戶戴耳機(jī)，主持人發(fā)用筆記本電腦隨機(jī)為用戶播放待測(cè)試語音
人聲、合成音按內(nèi)容分組配對(duì)。主持人隨機(jī)播放各組語料
每一句語料播放完畢，邀請(qǐng)用戶對(duì)該句語料進(jìn)行6個(gè)維度的mos評(píng)分
全部施測(cè)完成，主試統(tǒng)計(jì)各維度/總體mos評(píng)分均值，比較各產(chǎn)品的總體mos水平，確定相對(duì)優(yōu)劣。以下為各維度/總體比較標(biāo)準(zhǔn)，其中3.5分為行業(yè)平均水平

【ABX迫選法】人聲PK多版本合成語音，分別比較集內(nèi)內(nèi)容與集外內(nèi)容的還原度。

主持人為用戶介紹評(píng)價(jià)方式，并發(fā)放紙質(zhì)A/B/X量表
用戶戴耳機(jī)，主持人測(cè)試筆記本電腦
人聲、多版本合成音按內(nèi)容分組配對(duì)。主持人隨機(jī)播放各組語料
播放后邀請(qǐng)用戶配對(duì)呈現(xiàn)的聲音進(jìn)行比較，并作出選擇：A/B/X
全部施測(cè)完成，主試統(tǒng)計(jì)選擇頻次。以下為評(píng)價(jià)標(biāo)準(zhǔn)

【注】集內(nèi)內(nèi)容：語音合成的訓(xùn)練集中的人聲語料，因?yàn)樽鲞^針對(duì)性的訓(xùn)練，所以該內(nèi)容生成質(zhì)量輪上比集外內(nèi)容更好；集外內(nèi)容：相對(duì)集內(nèi)內(nèi)容的概念，從未進(jìn)行過針對(duì)訓(xùn)練的隨機(jī)挑選的語料。