久久本道久久综合伊人,成人综合亚洲日韩欧美色,草莓视频官网

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

智能座艙——車載語音交互應(yīng)該怎樣更好？

蕪湖小fly

2024-08-01

1 評(píng)論 2993 瀏覽 14 收藏

9 分鐘

汽車的人機(jī)交互模式從早期的機(jī)械式物理按鍵到電子遙控，現(xiàn)在發(fā)展到集語音、按鍵、手勢(shì)、視覺等多模交互形態(tài)，其中，語音交互是目前智能網(wǎng)聯(lián)汽車的標(biāo)配，本文就車載語音交互做個(gè)初步梳理。

一、語音交互流程

雖然在日常的用車過程中，通過喚醒詞→發(fā)出指令→車機(jī)反饋這樣一個(gè)流程進(jìn)行語音交互已經(jīng)習(xí)以為常，但是整個(gè)語音交互的流程其實(shí)并不像用戶感知的這樣簡(jiǎn)單，下面以用戶一句語音交互請(qǐng)求為例，說明汽車語音交互整體鏈路和流程：

首先用戶發(fā)起語音請(qǐng)求（一般通過語音喚醒詞喚醒或者車機(jī)按鍵，在此不贅述語音喚醒的過程），車機(jī)麥克風(fēng)拾音之后，調(diào)用語音增強(qiáng)能力接口，對(duì)音頻做回聲消除、噪聲抑制等語音增強(qiáng)處理，提升音頻的品質(zhì)。
語音增強(qiáng)之后的音頻進(jìn)行識(shí)別轉(zhuǎn)寫，轉(zhuǎn)寫之后的文本做文本后處理，如標(biāo)點(diǎn)符號(hào)的處理、敏感詞的檢測(cè)和大小寫規(guī)整等。
識(shí)別規(guī)整后的文本進(jìn)行語義理解（包括語義抽取、上下文交互、信源搜索、對(duì)話管理等），給出語義理解的結(jié)果。
車機(jī)端拿到語義結(jié)果之后解析出對(duì)應(yīng)的技能名稱、意圖和語義槽，然后根據(jù)對(duì)應(yīng)技能交互設(shè)計(jì)進(jìn)行交互上的展示和操控（如UI展示天氣查詢的結(jié)果、TTS播報(bào)天氣查詢結(jié)果、控制空調(diào)等）。

具體的流程示意圖如下：

其中，語義理解（NLU）和語音合成（TTS）需要借助人工智能模型，這里的AI能力調(diào)用方式可以有2種方式：車端本地AI能力、云端AI能力。

車端本地AI能力的優(yōu)點(diǎn)是在無網(wǎng)絡(luò)或弱網(wǎng)絡(luò)情況下也能實(shí)現(xiàn)用戶語音交互的需求，但是由于是本地化部署方式，成本偏高，后續(xù)的更新維護(hù)只能借由OTA方式進(jìn)行升級(jí)；

云端AI能力的優(yōu)點(diǎn)是性能和效果更優(yōu)秀，且調(diào)用成本低，維護(hù)升級(jí)比車端更加便捷。但是，對(duì)于汽車的網(wǎng)絡(luò)通訊環(huán)境穩(wěn)定有一定要求，否則會(huì)語音交互出現(xiàn)問題，造成不好的用戶體驗(yàn)。

二、語音交互目前的核心應(yīng)用場(chǎng)景

語音交互極大的解放了駕駛員的注意力，讓越來越多的操作變得簡(jiǎn)單快捷，目前語音交互在座艙中的核心應(yīng)用場(chǎng)景如下：

地圖導(dǎo)航
娛樂信息（音樂、視頻、圖片、新聞等）
社交信息（電話、短信、微信等）
車機(jī)操控（空調(diào)、車窗、座椅等）

根據(jù)語音交互的主從關(guān)系，還分為被動(dòng)語音交互和主動(dòng)語音交互，目前大多數(shù)語音交互均是圍繞被動(dòng)語音交互在各個(gè)應(yīng)用場(chǎng)景中的落地，而主動(dòng)語音交互目前還未進(jìn)行深入的場(chǎng)景發(fā)掘，目前主要是應(yīng)用在駕駛提醒中，比如行車未系安全帶等。不過，隨著被動(dòng)語音交互的逐漸普及，語音交互的產(chǎn)品亮點(diǎn)開始向主動(dòng)語音交互拓展，尤其借助人工智能和用戶的行車大數(shù)據(jù)做智能化的提醒建議，例如：

車輛油量和電量不足，車機(jī)主動(dòng)發(fā)起語音提示并給出附近的加油站和充電站導(dǎo)航，給到用戶進(jìn)行確認(rèn)；
車輛即將進(jìn)入隧道，車機(jī)主動(dòng)提示是否要設(shè)置為內(nèi)循環(huán)模式，防止隧道空氣渾濁影響車內(nèi)的空氣質(zhì)量；
感知目前大霧天氣，主動(dòng)提示打開霧燈，等待車主確認(rèn)；
等等

三、語音交互目前主要的問題

評(píng)價(jià)一個(gè)語音交互體驗(yàn)的好壞，主要是喊的醒、聽的懂、做得到。這也是人與人交流中的基本狀態(tài)，而車載語音交互目前主要的問題還是集中在：

1. 喚醒不及時(shí)（誤喚醒）

這塊主要是在于受車內(nèi)環(huán)境影響，或者喚醒詞識(shí)別模糊不精確。
喚醒詞盡量朗朗上口，符合國(guó)人口頭用語，比如”你好小明“，切記拗口，因?yàn)檗挚诰腿菀渍f錯(cuò)，”黑化肥會(huì)揮發(fā)“；
喚醒詞避免方言的干擾，比如”你好，牛奶“，”湖建號(hào)“，且喚醒詞不宜過短，例如”啊“；
如果是按鍵觸發(fā)語音交互，此時(shí)應(yīng)該車內(nèi)音頻通道降低音量，減少環(huán)境音對(duì)喚醒的干擾；
喚醒詞盡量不和日常對(duì)話過程中的常用語重合，例如”回家“”老公“；

2. 對(duì)于內(nèi)容理解不準(zhǔn)確

問東答西，這里就不展開了。

3. 不知道它哪些能做到

以為能做到的說了做不到，以為做不到的說了又做到了。
這塊目前是對(duì)于語音交互最大的黑盒子，因?yàn)闊o法一目了然知道語音交互可以做什么，導(dǎo)致交互心理障礙。
這塊目前沒看到有提供解決方案的，一個(gè)好的語音助手是用戶可以大膽的和它溝通，并且都能得到正向反饋，這塊可能是需要借助大模型進(jìn)行用戶意圖揣測(cè)，至少保障不能總回答做不到。

四、語音交互+

日常用車中，可能并不是單一交互行為在發(fā)生，更多的是多種交互方式的組合使用。對(duì)于語音交互，可以結(jié)合觸控，形成語音+觸控，提升交互操作的準(zhǔn)確性：

語音+視覺：交互更直觀，便于任務(wù)判斷。

語音+手勢(shì)：駕駛操控更簡(jiǎn)潔自然。

五、語音交互的走向思考

語音交互應(yīng)更多的由被動(dòng)語音交互轉(zhuǎn)為主動(dòng)語音交互，甚至全主動(dòng)語音交互，用戶進(jìn)行確認(rèn)即可，畢竟選擇題比問答題更好做也更容易處理。

頻繁的在車內(nèi)進(jìn)行被動(dòng)語音交互是個(gè)比較詭異的事情，尤其是有不太熟悉的人在車內(nèi)，并且每當(dāng)發(fā)起語音交互時(shí)，車內(nèi)的人總是不約而同的沉默，挺尷尬的，讓我想到了”小聲點(diǎn)，影響到我使用TNT了“，不過車內(nèi)還是相對(duì)封閉有隱私感。對(duì)于營(yíng)運(yùn)車輛，我?guī)缀鯖]有聽到過一次語音交互，可能就是司機(jī)和乘客之間并不熟悉，偶爾來幾句車機(jī)語音交互挺怪的。

我自己到目前，用的最多的語音交互就是導(dǎo)航和聽歌，因?yàn)檫@兩者都是需要打字查詢，過程相對(duì)來說比較繁瑣，其他情況我只有在新鮮感階段才會(huì)用用語音交互。

與其讓用戶發(fā)出指令進(jìn)行交互，不如將絕大多數(shù)適應(yīng)場(chǎng)景的交互直接由車機(jī)發(fā)起，比如，上車準(zhǔn)備觸發(fā)，問一句”今天目的地是哪里“，畢竟，這樣更自然。

車機(jī)根據(jù)駕駛者的駕駛數(shù)據(jù)和說話內(nèi)容，結(jié)合場(chǎng)景推送，形成面向用戶的主動(dòng)語音交互，是目前語音交互更值得探索的區(qū)域。

本文由 @蕪湖小fly 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可，禁止轉(zhuǎn)載

題圖來自Unsplash，基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App