從“Hey Siri”到“Siri”這一小步,是蘋(píng)果語(yǔ)音識(shí)別的一大步
不少iPhone用戶可能已經(jīng)習(xí)慣了通過(guò)“Hey Siri”來(lái)喚醒智能語(yǔ)音對(duì)話,但未來(lái),iPhone用戶也許可以直接通過(guò)“Siri”來(lái)實(shí)現(xiàn)喚醒,而這一看起來(lái)微小的變化,其背后隱藏的是蘋(píng)果在語(yǔ)音識(shí)別技術(shù)上的突破。具體如何理解?不如來(lái)看看作者的解讀吧。
“Hey Siri,講個(gè)笑話”,相信許多iPhone用戶都嘗試過(guò)這樣與蘋(píng)果的智能語(yǔ)音助手Siri對(duì)話,但在未來(lái),大家與Siri聊天時(shí)可能就要換一個(gè)詞了。
日前有消息顯示,蘋(píng)果方面計(jì)劃將智能語(yǔ)音助理Siri的喚醒詞從“Hey Siri”簡(jiǎn)化為“Siri”,這一變化預(yù)計(jì)將在2023年某個(gè)時(shí)候或2024年推出,同時(shí)蘋(píng)果正在將Siri整合至第三方APP,來(lái)為用戶提供更多語(yǔ)境和幫助。
作為蘋(píng)果推出的智能語(yǔ)音助手,早在2011年就已亮相的Siri,無(wú)疑是這十余年來(lái)手機(jī)廠商在AI領(lǐng)域探索的代表之一。別看蘋(píng)果未來(lái)僅僅只是去掉了“Hey”這個(gè)單詞,但這一微小變化的背后卻代表著蘋(píng)果AI技術(shù)的長(zhǎng)足進(jìn)步,同時(shí)也意味著蘋(píng)果在智能語(yǔ)音助手領(lǐng)域已經(jīng)追上了競(jìng)爭(zhēng)對(duì)手亞馬遜的腳步。畢竟在很長(zhǎng)一段時(shí)間里,盡管作為智能語(yǔ)音助手領(lǐng)域的先行者,Siri卻一直被用戶吐槽“有點(diǎn)蠢”、“不智能”。
從“Hey Siri”到“Siri”,反映的是蘋(píng)果在語(yǔ)音識(shí)別技術(shù)上有了重大的突破。就像每個(gè)人都有自己的名字一樣,智能語(yǔ)音助手其實(shí)也需要特定的詞匯來(lái)讓它知道用戶是在喊自己。
從某種程度上來(lái)說(shuō),喚醒詞同時(shí)也是智能語(yǔ)音助手品牌形象的一大組成部分,通過(guò)每一次激活語(yǔ)音助手時(shí)說(shuō)出的喚醒詞,消費(fèi)者關(guān)于這個(gè)品牌的記憶就在這樣日復(fù)一日的復(fù)讀中不斷被強(qiáng)化。
那么為什么智能語(yǔ)音助手一定需求一個(gè)喚醒詞呢?
這是因?yàn)橹悄苷Z(yǔ)音助手如今還不可能24小時(shí)時(shí)刻保持在線狀態(tài),需要保證只有在用戶需要時(shí)才進(jìn)入工作狀態(tài),其他時(shí)間則保持休眠。相比于按專(zhuān)屬按鍵喚醒、點(diǎn)擊圖標(biāo)喚醒這類(lèi)觸摸喚醒機(jī)制,使用特定的喚醒詞來(lái)激活智能語(yǔ)音助手,也更契合這一產(chǎn)品的特質(zhì)。
語(yǔ)音喚醒被稱之為keyword spotting(下文簡(jiǎn)稱為KWS),即在連續(xù)語(yǔ)流中實(shí)時(shí)檢測(cè)出說(shuō)話人的特定片段,而這個(gè)特定片段就是喚醒詞。
通常來(lái)說(shuō),如果不是手動(dòng)禁用語(yǔ)音助手,后者作為系統(tǒng)級(jí)服務(wù)會(huì)長(zhǎng)時(shí)間駐留在后臺(tái),然而智能語(yǔ)音助手作為一個(gè)需要大量AI算力支撐的功能,在工作狀態(tài)下需要不低的性能開(kāi)銷(xiāo),同時(shí)也會(huì)相應(yīng)的提升功耗。
面對(duì)這一問(wèn)題,開(kāi)發(fā)者想出的辦法是通過(guò)專(zhuān)用于語(yǔ)音喚醒的低功耗協(xié)處理器來(lái)實(shí)時(shí)監(jiān)聽(tīng)麥克風(fēng),一旦監(jiān)聽(tīng)到類(lèi)似“Hey Siri”、“小愛(ài)同學(xué)”、“Hey Google”這類(lèi)關(guān)鍵喚醒詞時(shí),就會(huì)將語(yǔ)音助手從休眠狀態(tài)轉(zhuǎn)換到工作狀態(tài)。這個(gè)策略的好處除了降低對(duì)設(shè)備的續(xù)航壓力外,也會(huì)避免一直處于工作狀態(tài)的語(yǔ)音助手,處理并不是發(fā)送給自己的音頻信息。
其實(shí)語(yǔ)音喚醒的難點(diǎn),主要就是低功耗與用戶臨時(shí)需求之間的矛盾,一個(gè)既能有效喚醒語(yǔ)音助手,又不至于讓系統(tǒng)誤判的喚醒詞也是整個(gè)KWS機(jī)制的核心。
大家想必已經(jīng)發(fā)現(xiàn),目前國(guó)內(nèi)市場(chǎng)的智能語(yǔ)音助手喚醒詞往往是4個(gè)字,比如“天貓精靈”、“小愛(ài)同學(xué)”、“小度小度”。這是由于漢語(yǔ)發(fā)音與音節(jié)的關(guān)系,大家可以簡(jiǎn)單的把字?jǐn)?shù)理解為音節(jié)。
為什么喚醒詞普遍是4音節(jié),而不是中國(guó)人更習(xí)慣的3音節(jié)或2音節(jié)?這是因?yàn)橐艄?jié)越短,誤喚醒的問(wèn)題就會(huì)越嚴(yán)重,可如果音節(jié)再長(zhǎng),就從短語(yǔ)變成了句子,會(huì)降低用戶的交流體驗(yàn)。
同理,“Hey”作為一個(gè)英文語(yǔ)氣詞,就像在中文語(yǔ)境中使用“你好”一樣,是為了增加喚醒詞的音節(jié),讓系統(tǒng)能更準(zhǔn)確的判斷監(jiān)聽(tīng)到的聲音到底是對(duì)誰(shuí)說(shuō)的。
反過(guò)來(lái)說(shuō),省略掉“Hey”就意味著蘋(píng)果的KWS技術(shù)有了巨大的進(jìn)步,已經(jīng)能夠?qū)崿F(xiàn)只需要一個(gè)單詞即可判斷用戶意圖的水平。之所以能夠?qū)崿F(xiàn)這一效果,技術(shù)原理其實(shí)并不復(fù)雜,蘋(píng)果方面大概率是利用聲紋識(shí)別技術(shù)實(shí)現(xiàn)定向人聲分離,再通過(guò)卷積神經(jīng)網(wǎng)絡(luò)搭配聲紋識(shí)別編碼器,在復(fù)雜的聲學(xué)環(huán)境下準(zhǔn)確捕捉到目標(biāo)用戶的聲音。
到目前為止,谷歌相關(guān)設(shè)備依然需要通過(guò)“OK Google”與“Hey Google”來(lái)喚醒Google Assistant,其中一個(gè)很重要的原因,就是“Google”一詞本身由于谷歌已經(jīng)深入到了用戶的日常生活中,所以并不算冷門(mén),只有這個(gè)詞作為喚醒Google Assistant的“鑰匙”,會(huì)不可避免的導(dǎo)致頻繁誤喚醒。
作為對(duì)比,Siri這個(gè)被生造出來(lái)的詞匯適用范圍就很窄了,iPhone只需監(jiān)聽(tīng)到契合“Siri”發(fā)音的聲紋,即可判斷用戶有使用智能語(yǔ)音助手的需求。
并且值得一提的是,據(jù)悉蘋(píng)果還計(jì)劃允許Siri與第三方應(yīng)用結(jié)合,而這對(duì)于Siri的易用性將有著極大的促進(jìn)作用。
要知道,此前曾有前Siri團(tuán)隊(duì)的成員表示,領(lǐng)導(dǎo)力的缺乏和管理層的不斷變化拖累了Siri前進(jìn)的腳步,其中最關(guān)鍵的原因,就是蘋(píng)果方面一直以來(lái)堅(jiān)持的封閉模式并沒(méi)有對(duì)Siri破例,也未能讓第三方開(kāi)發(fā)者有更多機(jī)會(huì)創(chuàng)造更多有用的Siri應(yīng)用。
在Siri還沒(méi)有被登錄iPhone或被收購(gòu)前,其創(chuàng)始團(tuán)隊(duì)的預(yù)想其實(shí)是希望能夠擁有一個(gè)第三方的開(kāi)發(fā)生態(tài),而這一點(diǎn)也被后來(lái)的一眾智能語(yǔ)音助手陸續(xù)實(shí)現(xiàn)。比如說(shuō),最初Siri被希望實(shí)現(xiàn)的預(yù)約餐飲功能,是包含著日期、地點(diǎn)、菜品等多方位要素,而非簡(jiǎn)單地搜索一個(gè)餐廳的訂餐電話。
未來(lái)Siri能夠接入第三方應(yīng)用,也就意味著蘋(píng)果的智能語(yǔ)音助手可以借助第三方的力量,來(lái)為自己賦予更多的功能、完成更多的任務(wù)。如果這一消息屬實(shí),也就意味著在被忽視了多年后,Siri或許將要雄起了。
【本文圖片來(lái)自網(wǎng)絡(luò)】
作者:三易菌;公眾號(hào):三易生活
原文鏈接:https://mp.weixin.qq.com/s/yvGhakRlbG4ufUKGsY-Q4w
本文由 @三易生活 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
雖然只是語(yǔ)音喚醒的改變,但背后確實(shí)是很大的進(jìn)步,蘋(píng)果是一個(gè)強(qiáng)大的生態(tài),背靠?jī)?yōu)越的硬件環(huán)境,搭載更多第三方后只會(huì)更加青云直上,想必會(huì)迎來(lái)新一輪的技術(shù)革命。