智能座艙系列六:車載語(yǔ)音系統(tǒng)介紹

4 評(píng)論 15653 瀏覽 66 收藏 12 分鐘

編輯導(dǎo)語(yǔ):隨著科技的進(jìn)步,智能座艙技術(shù)也在不斷地發(fā)展中,本篇文章作者系統(tǒng)地介紹了智能座艙的語(yǔ)言系統(tǒng),從各個(gè)方面詳細(xì)地介紹了其車載語(yǔ)音的功能介紹以及整體架構(gòu)等,感興趣的一起來(lái)看一下吧。

智能座艙有兩大人工智能交互系統(tǒng),一個(gè)基于視覺(jué)(計(jì)算機(jī)視覺(jué))、一個(gè)基于語(yǔ)音。前者的應(yīng)用體現(xiàn)在IMS系統(tǒng),我之前的文章有過(guò)介紹;后者的應(yīng)用在艙內(nèi)的語(yǔ)音功能。這篇文章就系統(tǒng)地介紹智能座艙的語(yǔ)音系統(tǒng)(VOS)。

一、概述

VOS(語(yǔ)音操作系統(tǒng))旨在為用戶提供車內(nèi)環(huán)境下的語(yǔ)音交互服務(wù)。 VOS系統(tǒng)系統(tǒng)采用了喚醒、語(yǔ)音識(shí)別、語(yǔ)義理解等技術(shù)實(shí)現(xiàn)語(yǔ)音控制。

座艙的車設(shè)車控、地圖導(dǎo)航、音樂(lè)及多媒體應(yīng)用、系統(tǒng)設(shè)置、空調(diào)等均可通過(guò)語(yǔ)音來(lái)操作。除了針對(duì)車身、車載的控制外,語(yǔ)音還支持天氣查詢、日程管理以及閑聊對(duì)話。

用戶只要說(shuō)喚醒詞,即可使用。語(yǔ)音指令可以一步直達(dá)功能,既能解放手指,又無(wú)需視線偏移注視車機(jī)中控區(qū)域,從而保障行車安全。

二、總體架構(gòu)

在總體的架構(gòu)上,語(yǔ)音系統(tǒng)可分為四個(gè)模塊。即車端系統(tǒng)、云端系統(tǒng)、語(yǔ)音運(yùn)營(yíng)管理平臺(tái)以及訓(xùn)練和分析統(tǒng)計(jì)模塊。整體的語(yǔ)音系統(tǒng)和要求,包括車端到云端鏈接、數(shù)據(jù)到功能的構(gòu)建、Online的運(yùn)營(yíng)平臺(tái)、線下線上的數(shù)據(jù)采集和標(biāo)注。

三、架構(gòu)模塊

1. VOS車端系統(tǒng)

車機(jī)端主要是對(duì)話系統(tǒng)(DS),也是用戶感受最直觀的,產(chǎn)品的重點(diǎn)側(cè)向交互設(shè)計(jì)。

2. VOS車端模塊

從上圖可以看到,車機(jī)端由以下幾個(gè)模塊組成:

  • 音頻處理模塊:AEC /AGC/ANR/ BF;
  • 喚醒模塊/本地ASR;
  • 語(yǔ)音控制器語(yǔ);
  • 本地對(duì)話系統(tǒng);
  • TTS模塊。

以上每個(gè)模塊均包含一個(gè)或多個(gè)應(yīng)用,這些應(yīng)用內(nèi)置在車機(jī):音頻處理包括AEC (Acoustic Echo Cancelling)、VAD (Voice Activity Detection)、音頻壓縮、喚醒詞、本地的ASR識(shí)別等。該模塊可以對(duì)來(lái)自麥克風(fēng)的原始音頻信號(hào)進(jìn)行各種預(yù)處理,向語(yǔ)音助手提供獲取喚醒信號(hào)、預(yù)處理后的音頻、本地ASR識(shí)別結(jié)果等接口。

前端信號(hào)處理包括:AEC、ANR、AGC、聲源定位(SSL)、Beamforming,全部通過(guò)軟件方案實(shí)現(xiàn)。

3. 語(yǔ)音助手

車機(jī)端負(fù)責(zé)語(yǔ)音對(duì)話的中樞控制模塊,負(fù)責(zé)協(xié)調(diào)車機(jī)端對(duì)話系統(tǒng)的總體流程。車機(jī)端的其他模塊或者被語(yǔ)音助手調(diào)用(音頻服務(wù)、本地對(duì)話系統(tǒng)、TTS模塊、應(yīng)用程序),或者屬于語(yǔ)音助手的組成部分(對(duì)話控制器)。

4. 本地對(duì)話系統(tǒng)(本地DS)

本地對(duì)話系統(tǒng)是云端對(duì)話系統(tǒng)在車機(jī)上的一個(gè)鏡像。它負(fù)責(zé)執(zhí)行那些需要在車機(jī)上執(zhí)行的對(duì)話處理,如:離線無(wú)網(wǎng)絡(luò)狀態(tài)下的對(duì)話功能、基于本地SDK的導(dǎo)航或音樂(lè)搜索相關(guān)的對(duì)話處理、 或者其他一些本地優(yōu)于云端的場(chǎng)景下的對(duì)話功能。本地對(duì)話系統(tǒng)提供了一系列接口供對(duì)話控制器進(jìn)行調(diào)用。

本地對(duì)話系統(tǒng)從云端對(duì)話系統(tǒng)相同的基礎(chǔ)架構(gòu)衍生而來(lái),和云端的設(shè)計(jì)和功能大體相同。

但也根據(jù)本地的特點(diǎn)和需求進(jìn)行了變化。如鑒于車機(jī)運(yùn)算資源的匱乏而精簡(jiǎn)了模型;集成了車機(jī)專屬的基于SDK的媒體和導(dǎo)航搜索功能;本地對(duì)話系統(tǒng)包含語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音合成, 系統(tǒng)傾向于支持?jǐn)嗑W(wǎng)場(chǎng)景下的業(yè)務(wù),如車控、打電話等基本場(chǎng)景。

本地對(duì)話系統(tǒng)的交互入口是語(yǔ)音喚醒,有的喚醒會(huì)支持雙喚醒詞(隱含)。像百度地圖就支持“小度小度”也支持“小德小德”(高德地圖的喚醒詞),容錯(cuò)率更好。

5. 本地NLU

本地NLU在無(wú)網(wǎng)絡(luò)狀態(tài)下,提供基礎(chǔ)語(yǔ)義理解服務(wù),考慮到車機(jī)端的運(yùn)算能力,在NLU模型上需做大量的模型裁剪和壓縮,并結(jié)合車機(jī)芯片進(jìn)行指令集層面的優(yōu)化,確保將本地NLU的效果最大程度的逼近云端NLU的效果;本地NLU的資源大約是在線的1/10, 最大程度的保證了本地的效果。

6. 本地TTS

TTS模塊被語(yǔ)音助手調(diào)用,負(fù)責(zé)將文本轉(zhuǎn)換為語(yǔ)音播報(bào)。TTS合成引擎由供應(yīng)商提供,對(duì)話話術(shù)的TTS文本通過(guò)話術(shù)運(yùn)營(yíng)系統(tǒng)來(lái)制定和編輯,其結(jié)果存儲(chǔ)在數(shù)據(jù)庫(kù)中、供對(duì)話系統(tǒng)調(diào)用。

四、云端系統(tǒng)

1. 對(duì)話系統(tǒng)

對(duì)話系統(tǒng)的云端部分(或者說(shuō)在線對(duì)話系統(tǒng))由多個(gè)部署在云服務(wù)上的服務(wù)和存儲(chǔ)組成。

云端向車機(jī)提供兩種接口:一種是基于TCP的socket流式數(shù)據(jù)傳輸接口,用于傳輸語(yǔ)音數(shù)據(jù)并給出
云端ASR識(shí)別結(jié)果和對(duì)話結(jié)果:一種是基于HTTP的用于發(fā)送非語(yǔ)音類消息的接口。云端服務(wù)可以部署在各種云服務(wù)(如aws、華為云等)的計(jì)算節(jié)點(diǎn)上;一套部署在具備64G內(nèi)存的計(jì)算節(jié)點(diǎn)
上的云端節(jié)點(diǎn)可以同時(shí)支持2-3萬(wàn)臺(tái)設(shè)備的訪問(wèn)。

對(duì)話系統(tǒng)的云端部分主要提供以下幾項(xiàng)功能:

  1. 在線ASR識(shí)別對(duì)話服務(wù)模塊可以接受用戶發(fā)起的語(yǔ)音對(duì)話的音頻輸入,并給出識(shí)別結(jié)果。
  2. 對(duì)話 對(duì)話服務(wù)模塊可以接受用戶發(fā)起的語(yǔ)音對(duì)話的文本輸入,并給出相應(yīng)的對(duì)話結(jié)果,包括TTS文本、要車機(jī)進(jìn)行的操作、車機(jī)用來(lái)屏顯的內(nèi)容等。
  3. 其他功能如向用戶進(jìn)行主動(dòng)推送等。

2. 模型

模型主要提供各種AI算法的運(yùn)行模型數(shù)據(jù),包括聲學(xué)模型、語(yǔ)言模型等等多個(gè)不同算法不同用途的模型,可獨(dú)立升級(jí),來(lái)實(shí)現(xiàn)最優(yōu)的AI處理效果。
對(duì)于通用領(lǐng)域,模型優(yōu)化能夠帶來(lái)整體的提升,例如整體升級(jí)聲學(xué)模型和語(yǔ)言模型,在用戶數(shù)據(jù)積累到一定程度的時(shí)候,如1萬(wàn)小時(shí)交互音頻數(shù)據(jù),可以帶來(lái)20%-30%錯(cuò)誤率下降。
對(duì)于專有領(lǐng)域,模型優(yōu)化能夠?qū)崿F(xiàn)從極低到極高,甚至從無(wú)到有的提升,例如一些產(chǎn)品強(qiáng)相關(guān)的詞匯、使用常見(jiàn)的一些專有名詞、人名地名等,都可以做特定的優(yōu)化,達(dá)到通用的效果。

3. 云端TTS

云端TTS有別于本地端TTS,基于強(qiáng)大的計(jì)算能力,云端使用更大的數(shù)據(jù)庫(kù),技術(shù)上使用基于拼接的方案,相比于本地端基于參數(shù)合成的TTS,音質(zhì)更自然;
TTS的聲音可以進(jìn)行定制,需要經(jīng)過(guò)文本設(shè)計(jì)、發(fā)音人確認(rèn)、錄音場(chǎng)地和錄音、數(shù)據(jù)篩選、標(biāo)注、訓(xùn)練等過(guò)程。

五、運(yùn)營(yíng)平臺(tái)

運(yùn)營(yíng)平臺(tái)通過(guò)云端和線上對(duì)話系統(tǒng)聯(lián)通,負(fù)責(zé)以可視化的形式干預(yù)對(duì)話系統(tǒng)線上的數(shù)據(jù)和功能。其中主要包含兩大類功能:數(shù)據(jù)運(yùn)營(yíng)、功能運(yùn)營(yíng)。

1. 數(shù)據(jù)運(yùn)營(yíng)

數(shù)據(jù)部分的運(yùn)營(yíng)主要針對(duì)兩部分比較常用的可運(yùn)營(yíng)數(shù)據(jù):

  1. 針對(duì)系統(tǒng)接入的CP/SP的可運(yùn)營(yíng)的內(nèi)容,比如喜馬拉雅的推薦數(shù)據(jù)、黃頁(yè)數(shù)據(jù)等等,可以在系統(tǒng)中以手動(dòng)的方式調(diào)整數(shù)據(jù)的內(nèi)容、排序等;
  2. 針對(duì)企業(yè)自有的數(shù)據(jù),比如主機(jī)廠獨(dú)有的充電樁數(shù)據(jù)、服務(wù)門店數(shù)據(jù),可以有機(jī)的結(jié)合到對(duì)話系統(tǒng)中來(lái)。

2. 功能運(yùn)營(yíng)

功能運(yùn)營(yíng)主要是在特定的時(shí)間點(diǎn),比如某些節(jié)日、或者有特殊意義的日子、或者臨時(shí)發(fā)生一些事件的時(shí)候,通過(guò)快速干預(yù)某些特定的說(shuō)法的反饋,通過(guò)編輯特定說(shuō)法的TTS回復(fù),來(lái)實(shí)現(xiàn)系統(tǒng)對(duì)特殊情況的特殊處理。

六、訓(xùn)練及分析

1. 用戶數(shù)據(jù)統(tǒng)計(jì)分析

用戶數(shù)據(jù)統(tǒng)計(jì)分析系統(tǒng),通過(guò)對(duì)所有實(shí)車用戶使用車載語(yǔ)音的情況進(jìn)行統(tǒng)計(jì)分析,能夠得出不同維度、不同粒度的分析報(bào)表。定期進(jìn)行報(bào)表的解讀和分析,可用得出的結(jié)論來(lái)指導(dǎo)系統(tǒng)功能的改進(jìn)。

2. 訓(xùn)練系統(tǒng)

針對(duì)音頻、文本、圖像的采集+標(biāo)注系統(tǒng),企業(yè)通過(guò)定期常規(guī)的對(duì)線上數(shù)據(jù)的回收、標(biāo)注和不定期的對(duì)特殊要求數(shù)據(jù)的采集、標(biāo)注,生產(chǎn)出各個(gè)AI模型需要的數(shù)據(jù),提供模型訓(xùn)練支持;每次模型訓(xùn)練完畢會(huì)有迭代上線,從而實(shí)現(xiàn)訓(xùn)練數(shù)據(jù)系統(tǒng)和線上模型的一個(gè)閉環(huán)迭代,不斷的提升整體的語(yǔ)音產(chǎn)品的能力。

以上便是對(duì)智能座艙車載語(yǔ)音系統(tǒng)的完整介紹。如果你對(duì)智能座艙產(chǎn)品感興趣,關(guān)注我。

 

本文由 @賽博七號(hào) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

本文由 @賽博七號(hào) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 你好,我想請(qǐng)問(wèn)下,車載語(yǔ)音方向的PM有市場(chǎng)嗎?吃香嗎

    來(lái)自廣東 回復(fù)
    1. 有市場(chǎng),吃香不吃香看公司。有的給錢給資源給人,有的“用公版軟件,給你八個(gè)月,做出來(lái)和小鵬一樣水平的車載語(yǔ)音”。。。。

      來(lái)自上海 回復(fù)
  2. 這個(gè)系統(tǒng)看上去好智能耶 不知道能不能自定義喚醒詞 那樣應(yīng)該很有意思!

    來(lái)自福建 回復(fù)
    1. 很早就可以實(shí)現(xiàn)了~

      來(lái)自湖北 回復(fù)