智能座艙——車載語音交互應(yīng)該怎樣更好?
汽車的人機(jī)交互模式從早期的機(jī)械式物理按鍵到電子遙控,現(xiàn)在發(fā)展到集語音、按鍵、手勢(shì)、視覺等多模交互形態(tài),其中,語音交互是目前智能網(wǎng)聯(lián)汽車的標(biāo)配,本文就車載語音交互做個(gè)初步梳理。
一、語音交互流程
雖然在日常的用車過程中,通過喚醒詞→發(fā)出指令→車機(jī)反饋這樣一個(gè)流程進(jìn)行語音交互已經(jīng)習(xí)以為常,但是整個(gè)語音交互的流程其實(shí)并不像用戶感知的這樣簡(jiǎn)單,下面以用戶一句語音交互請(qǐng)求為例,說明汽車語音交互整體鏈路和流程:
- 首先用戶發(fā)起語音請(qǐng)求 (一般通過語音喚醒詞喚醒或者車機(jī)按鍵,在此不贅述語音喚醒的過程),車機(jī)麥克風(fēng)拾音之后,調(diào)用語音增強(qiáng)能力接口,對(duì)音頻做回聲消除、噪聲抑制等語音增強(qiáng)處理,提升音頻的品質(zhì)。
- 語音增強(qiáng)之后的音頻進(jìn)行識(shí)別轉(zhuǎn)寫,轉(zhuǎn)寫之后的文本做文本后處理,如標(biāo)點(diǎn)符號(hào)的處理、敏感詞的檢測(cè)和大小寫規(guī)整等。
- 識(shí)別規(guī)整后的文本進(jìn)行語義理解 (包括語義抽取、上下文交互、信源搜索、對(duì)話管理等),給出語義理解的結(jié)果。
- 車機(jī)端拿到語義結(jié)果之后解析出對(duì)應(yīng)的技能名稱、意圖和語義槽,然后根據(jù)對(duì)應(yīng)技能交互設(shè)計(jì)進(jìn)行交互上的展示和操控 (如UI展示天氣查詢的結(jié)果、TTS播報(bào)天氣查詢結(jié)果、控制空調(diào)等)。
具體的流程示意圖如下:
其中,語義理解(NLU)和語音合成(TTS)需要借助人工智能模型,這里的AI能力調(diào)用方式可以有2種方式:車端本地AI能力、云端AI能力。
車端本地AI能力的優(yōu)點(diǎn)是在無網(wǎng)絡(luò)或弱網(wǎng)絡(luò)情況下也能實(shí)現(xiàn)用戶語音交互的需求,但是由于是本地化部署方式,成本偏高,后續(xù)的更新維護(hù)只能借由OTA方式進(jìn)行升級(jí);
云端AI能力的優(yōu)點(diǎn)是性能和效果更優(yōu)秀,且調(diào)用成本低,維護(hù)升級(jí)比車端更加便捷。但是,對(duì)于汽車的網(wǎng)絡(luò)通訊環(huán)境穩(wěn)定有一定要求,否則會(huì)語音交互出現(xiàn)問題,造成不好的用戶體驗(yàn)。
二、語音交互目前的核心應(yīng)用場(chǎng)景
語音交互極大的解放了駕駛員的注意力,讓越來越多的操作變得簡(jiǎn)單快捷,目前語音交互在座艙中的核心應(yīng)用場(chǎng)景如下:
- 地圖導(dǎo)航
- 娛樂信息(音樂、視頻、圖片、新聞等)
- 社交信息(電話、短信、微信等)
- 車機(jī)操控(空調(diào)、車窗、座椅等)
根據(jù)語音交互的主從關(guān)系,還分為被動(dòng)語音交互和主動(dòng)語音交互,目前大多數(shù)語音交互均是圍繞被動(dòng)語音交互在各個(gè)應(yīng)用場(chǎng)景中的落地,而主動(dòng)語音交互目前還未進(jìn)行深入的場(chǎng)景發(fā)掘,目前主要是應(yīng)用在駕駛提醒中,比如行車未系安全帶等。不過,隨著被動(dòng)語音交互的逐漸普及,語音交互的產(chǎn)品亮點(diǎn)開始向主動(dòng)語音交互拓展,尤其借助人工智能和用戶的行車大數(shù)據(jù)做智能化的提醒建議,例如:
- 車輛油量和電量不足,車機(jī)主動(dòng)發(fā)起語音提示并給出附近的加油站和充電站導(dǎo)航,給到用戶進(jìn)行確認(rèn);
- 車輛即將進(jìn)入隧道,車機(jī)主動(dòng)提示是否要設(shè)置為內(nèi)循環(huán)模式,防止隧道空氣渾濁影響車內(nèi)的空氣質(zhì)量;
- 感知目前大霧天氣,主動(dòng)提示打開霧燈,等待車主確認(rèn);
- 等等
三、語音交互目前主要的問題
評(píng)價(jià)一個(gè)語音交互體驗(yàn)的好壞,主要是喊的醒、聽的懂、做得到。這也是人與人交流中的基本狀態(tài),而車載語音交互目前主要的問題還是集中在:
1. 喚醒不及時(shí)(誤喚醒)
- 這塊主要是在于受車內(nèi)環(huán)境影響,或者喚醒詞識(shí)別模糊不精確。
- 喚醒詞盡量朗朗上口,符合國(guó)人口頭用語,比如”你好小明“,切記拗口,因?yàn)檗挚诰腿菀渍f錯(cuò),”黑化肥會(huì)揮發(fā)“;
- 喚醒詞避免方言的干擾,比如”你好,牛奶“,”湖建號(hào)“,且喚醒詞不宜過短,例如”啊“;
- 如果是按鍵觸發(fā)語音交互,此時(shí)應(yīng)該車內(nèi)音頻通道降低音量,減少環(huán)境音對(duì)喚醒的干擾;
- 喚醒詞盡量不和日常對(duì)話過程中的常用語重合,例如”回家“”老公“;
2. 對(duì)于內(nèi)容理解不準(zhǔn)確
- 問東答西,這里就不展開了。
3. 不知道它哪些能做到
- 以為能做到的說了做不到,以為做不到的說了又做到了。
- 這塊目前是對(duì)于語音交互最大的黑盒子,因?yàn)闊o法一目了然知道語音交互可以做什么,導(dǎo)致交互心理障礙。
- 這塊目前沒看到有提供解決方案的,一個(gè)好的語音助手是用戶可以大膽的和它溝通,并且都能得到正向反饋,這塊可能是需要借助大模型進(jìn)行用戶意圖揣測(cè),至少保障不能總回答做不到。
四、語音交互+
日常用車中,可能并不是單一交互行為在發(fā)生,更多的是多種交互方式的組合使用。對(duì)于語音交互,可以結(jié)合觸控,形成語音+觸控,提升交互操作的準(zhǔn)確性:
語音+視覺:交互更直觀,便于任務(wù)判斷。
語音+手勢(shì):駕駛操控更簡(jiǎn)潔自然。
五、語音交互的走向思考
語音交互應(yīng)更多的由被動(dòng)語音交互轉(zhuǎn)為主動(dòng)語音交互,甚至全主動(dòng)語音交互,用戶進(jìn)行確認(rèn)即可,畢竟選擇題比問答題更好做也更容易處理。
頻繁的在車內(nèi)進(jìn)行被動(dòng)語音交互是個(gè)比較詭異的事情,尤其是有不太熟悉的人在車內(nèi),并且每當(dāng)發(fā)起語音交互時(shí),車內(nèi)的人總是不約而同的沉默,挺尷尬的,讓我想到了”小聲點(diǎn),影響到我使用TNT了“,不過車內(nèi)還是相對(duì)封閉有隱私感。對(duì)于營(yíng)運(yùn)車輛,我?guī)缀鯖]有聽到過一次語音交互,可能就是司機(jī)和乘客之間并不熟悉,偶爾來幾句車機(jī)語音交互挺怪的。
我自己到目前,用的最多的語音交互就是導(dǎo)航和聽歌,因?yàn)檫@兩者都是需要打字查詢,過程相對(duì)來說比較繁瑣,其他情況我只有在新鮮感階段才會(huì)用用語音交互。
與其讓用戶發(fā)出指令進(jìn)行交互,不如將絕大多數(shù)適應(yīng)場(chǎng)景的交互直接由車機(jī)發(fā)起,比如,上車準(zhǔn)備觸發(fā),問一句”今天目的地是哪里“,畢竟,這樣更自然。
車機(jī)根據(jù)駕駛者的駕駛數(shù)據(jù)和說話內(nèi)容,結(jié)合場(chǎng)景推送,形成面向用戶的主動(dòng)語音交互,是目前語音交互更值得探索的區(qū)域。
本文由 @蕪湖小fly 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)
尬不尬取決于車主是I人還是E人,不過自動(dòng)化指令對(duì)I人更友好。