車載語音助手-技術(shù)流程梳理(概覽)
一次完整的語音交互??
信號(hào)處理→語音識(shí)別(ASR)→自然語言處理(NLP)→語音合成(TTS)→對(duì)話管理(DM)
一、什么是語音交互
先舉例語音中的一個(gè)經(jīng)典案例;
酒吧里燈光耀眼,音樂勁爆,盡管周邊的噪音很大,盡管周圍的人使用的是各自的母語,英文、西語、等等,此時(shí),如果遠(yuǎn)處突然有人用中文叫你的名字時(shí),你還是能夠馬上就注意到他,甚至可以聽到他說的內(nèi)容;這是語音中一個(gè)非常經(jīng)典的現(xiàn)象,稱之為“雞尾酒會(huì)效應(yīng)”,它體現(xiàn)出了人耳在聽覺上的天賦異稟,同時(shí)也是語音識(shí)別中的經(jīng)典難題。
1.? 在這個(gè)例子里,語音助手先做了一件事,就是“聽清楚”,我們把這個(gè)過程,叫做“信號(hào)處理”。信號(hào)處理的目的是能夠讓這段聲音,盡可能干凈,高質(zhì)量地提取出來,而要做到這個(gè),需要解決很多問題,比如:“聲源定位”,在環(huán)境中,找到“叫你的名字”的那個(gè)“他”的具體位置;“降噪”,將“酒吧的噪音”、“其它人交談的噪音”都消除干凈等等。
2. 當(dāng)語音助手“聽清楚”了,之后就要“識(shí)內(nèi)容”,要識(shí)別出聲音中的具體內(nèi)容,這是我們經(jīng)常說到的“語音識(shí)別”,即“聲音轉(zhuǎn)寫成文字”的過程;比如他說:“現(xiàn)在幾點(diǎn)了?”,將音頻轉(zhuǎn)換為文字的過程
3. 語音助手知道內(nèi)容了,就得“想意思”,想“現(xiàn)在幾點(diǎn)了?”里的具體意思,這個(gè)過程為“語義理解”,即“自然語言理解”;他的意思是:“他期望我反饋”、“現(xiàn)在”、“時(shí)間”、“具體時(shí)間中的小時(shí)”;聽懂了,就得“去行動(dòng)”,得先看下手表里顯示的現(xiàn)在時(shí)間,然后把小時(shí)的數(shù)值反饋給他,我們把這個(gè)處理過程稱為“語義處理”;行動(dòng)完了,要“想話術(shù)”,同樣都是告訴他時(shí)間,說法會(huì)有很多種,可以說“8點(diǎn)”,可以說“現(xiàn)在是2024年4月7日20點(diǎn)12分50秒”,也可以說“剛過8點(diǎn),咋啦”等等,不同的表達(dá)方式,會(huì)給人帶來不一樣的體驗(yàn)和感受,我們稱這個(gè)過程為“語言生成”;當(dāng)然,我們也會(huì)把“想意思”->“去行動(dòng)”->“想話術(shù)” ->”語言生成“放在一起,都叫做“自然語言處理”。
4. 想清楚怎么表達(dá)之后,就要“說出來”,將“文字轉(zhuǎn)換成聲音”的過程,我們叫它“語音合成”,之后再通過揚(yáng)聲器播放出來,不同的聲音會(huì)給人帶來不同的感受,比如“星河”和“蜜糖”(小愛同學(xué)的音色),兩種聲音給人的體驗(yàn)是不一樣。
二、小結(jié)
一次語音交互=“聽清楚”->“識(shí)內(nèi)容”->“想意思”->“去行動(dòng)”->“想話術(shù)”->“語言生成”->“說出來”
在這個(gè)過程中,用戶感知到語音助手的狀態(tài)即為:
1. 初始/休息狀態(tài):語音機(jī)器人未喚醒,大家相安無事,無互動(dòng)(以Nomi為例子,Nomi會(huì)處于待機(jī)狀態(tài),或者根據(jù)車況做出伴隨表情)
2. 傾聽狀態(tài):通過喚醒詞喚醒語音助手,語音助手提供反饋高速用戶可以說話了,我在聽。這種信號(hào)通常會(huì)采用視覺文字上屏文字+虛擬人物表情,表示人類發(fā)出的音頻流正在被語音機(jī)器人接收。
3. 處理/思考狀態(tài):發(fā)生在人們停止說話但語音機(jī)器人還沒有處理好用戶需求給出結(jié)果反饋的時(shí)候。通常還伴有聲音+虛擬人物表情反饋。
4. 說話狀態(tài):這種信號(hào)是通過語音機(jī)器人在回應(yīng)時(shí)發(fā)出聲音來傳遞的。
5. 免喚醒狀態(tài):通常語音機(jī)器人被中斷,或者已經(jīng)處理完用戶的一個(gè)語音需求后處于免喚醒狀態(tài)(通常維持20-60秒,大家可以測(cè)試一下自己的語音助手可以維持多久)。免喚醒狀態(tài)和初始狀態(tài)之間的區(qū)別在于前者支持上下文理解,后者不支持,前者不需要喚醒詞喚醒可以直接呼出,后者需要。
參考:
–《語音優(yōu)先:智能語音技術(shù)驅(qū)動(dòng)的交互界面設(shè)計(jì)與語音機(jī)器人設(shè)計(jì)》艾哈邁德·布齊德
–《一段聲音的旅程》秋歌
本文由 @大魚 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)
- 目前還沒評(píng)論,等你發(fā)揮!