車載語音助手-技術(shù)流程梳理(概覽)

大魚
0 評(píng)論 1190 瀏覽 9 收藏 6 分鐘
B端产品经理要负责对目标行业和市场进行深入的分析和调研,了解客户的需求、痛点、期望和行为,找到产品的价值主张 🔗

一次完整的語音交互??

信號(hào)處理→語音識(shí)別(ASR)→自然語言處理(NLP)→語音合成(TTS)→對(duì)話管理(DM)

一、什么是語音交互

先舉例語音中的一個(gè)經(jīng)典案例;

酒吧里燈光耀眼,音樂勁爆,盡管周邊的噪音很大,盡管周圍的人使用的是各自的母語,英文、西語、等等,此時(shí),如果遠(yuǎn)處突然有人用中文叫你的名字時(shí),你還是能夠馬上就注意到他,甚至可以聽到他說的內(nèi)容;這是語音中一個(gè)非常經(jīng)典的現(xiàn)象,稱之為“雞尾酒會(huì)效應(yīng)”,它體現(xiàn)出了人耳在聽覺上的天賦異稟,同時(shí)也是語音識(shí)別中的經(jīng)典難題。

1.? 在這個(gè)例子里,語音助手先做了一件事,就是“聽清楚”,我們把這個(gè)過程,叫做“信號(hào)處理”。信號(hào)處理的目的是能夠讓這段聲音,盡可能干凈,高質(zhì)量地提取出來,而要做到這個(gè),需要解決很多問題,比如:“聲源定位”,在環(huán)境中,找到“叫你的名字”的那個(gè)“他”的具體位置;“降噪”,將“酒吧的噪音”、“其它人交談的噪音”都消除干凈等等。

2. 當(dāng)語音助手“聽清楚”了,之后就要“識(shí)內(nèi)容”,要識(shí)別出聲音中的具體內(nèi)容,這是我們經(jīng)常說到的“語音識(shí)別”,即“聲音轉(zhuǎn)寫成文字”的過程;比如他說:“現(xiàn)在幾點(diǎn)了?”,將音頻轉(zhuǎn)換為文字的過程

3. 語音助手知道內(nèi)容了,就得“想意思”,想“現(xiàn)在幾點(diǎn)了?”里的具體意思,這個(gè)過程為“語義理解”,即“自然語言理解”;他的意思是:“他期望我反饋”、“現(xiàn)在”、“時(shí)間”、“具體時(shí)間中的小時(shí)”;聽懂了,就得“去行動(dòng)”,得先看下手表里顯示的現(xiàn)在時(shí)間,然后把小時(shí)的數(shù)值反饋給他,我們把這個(gè)處理過程稱為“語義處理”;行動(dòng)完了,要“想話術(shù)”,同樣都是告訴他時(shí)間,說法會(huì)有很多種,可以說“8點(diǎn)”,可以說“現(xiàn)在是2024年4月7日20點(diǎn)12分50秒”,也可以說“剛過8點(diǎn),咋啦”等等,不同的表達(dá)方式,會(huì)給人帶來不一樣的體驗(yàn)和感受,我們稱這個(gè)過程為“語言生成”;當(dāng)然,我們也會(huì)把“想意思”->“去行動(dòng)”->“想話術(shù)” ->”語言生成“放在一起,都叫做“自然語言處理”。

4. 想清楚怎么表達(dá)之后,就要“說出來”,將“文字轉(zhuǎn)換成聲音”的過程,我們叫它“語音合成”,之后再通過揚(yáng)聲器播放出來,不同的聲音會(huì)給人帶來不同的感受,比如“星河”和“蜜糖”(小愛同學(xué)的音色),兩種聲音給人的體驗(yàn)是不一樣。

二、小結(jié)

一次語音交互=“聽清楚”->“識(shí)內(nèi)容”->“想意思”->“去行動(dòng)”->“想話術(shù)”->“語言生成”->“說出來”

在這個(gè)過程中,用戶感知到語音助手的狀態(tài)即為:

1. 初始/休息狀態(tài):語音機(jī)器人未喚醒,大家相安無事,無互動(dòng)(以Nomi為例子,Nomi會(huì)處于待機(jī)狀態(tài),或者根據(jù)車況做出伴隨表情)

2. 傾聽狀態(tài):通過喚醒詞喚醒語音助手,語音助手提供反饋高速用戶可以說話了,我在聽。這種信號(hào)通常會(huì)采用視覺文字上屏文字+虛擬人物表情,表示人類發(fā)出的音頻流正在被語音機(jī)器人接收。

3. 處理/思考狀態(tài):發(fā)生在人們停止說話但語音機(jī)器人還沒有處理好用戶需求給出結(jié)果反饋的時(shí)候。通常還伴有聲音+虛擬人物表情反饋。

4. 說話狀態(tài):這種信號(hào)是通過語音機(jī)器人在回應(yīng)時(shí)發(fā)出聲音來傳遞的。

5. 免喚醒狀態(tài):通常語音機(jī)器人被中斷,或者已經(jīng)處理完用戶的一個(gè)語音需求后處于免喚醒狀態(tài)(通常維持20-60秒,大家可以測(cè)試一下自己的語音助手可以維持多久)。免喚醒狀態(tài)和初始狀態(tài)之間的區(qū)別在于前者支持上下文理解,后者不支持,前者不需要喚醒詞喚醒可以直接呼出,后者需要。

參考:

–《語音優(yōu)先:智能語音技術(shù)驅(qū)動(dòng)的交互界面設(shè)計(jì)與語音機(jī)器人設(shè)計(jì)》艾哈邁德·布齊德

–《一段聲音的旅程》秋歌

本文由 @大魚 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!
专题
11915人已学习12篇文章
增长这个话题,是互联网产品在成长过程中绕不过的问题。本专题的文章分享了产品增长指南。
专题
11986人已学习12篇文章
针对新零售行业的发展现状,面向新零售企业的SaaS系统,可以如何进行系统架构和规划?本专题的文章分享了新零售saas架构指南。
专题
14829人已学习15篇文章
智能硬件产品经理需要做什么工作内容呢?与互联网产品经理有什么区别呢?本专题为刚入行的智能硬件产品经理分享了入门指南。
专题
15202人已学习14篇文章
RBAC是一套成熟的权限模型,在传统权限模型中,我们直接把权限赋予用户。而在RBAC中,首先把权限赋予角色,再把角色赋予用户。本专题的文章分享了基于RBAC模型的权限设计。
专题
13046人已学习13篇文章
对数据进行监控,分析异常数据,是数据分析常见的工作内容。本专题的文章分享了如何做好数据异常分析。
专题
32234人已学习19篇文章
一个合格的购物车是怎么设计出来的?