科技巨頭的語音生意經(jīng)

1 評論 4755 瀏覽 12 收藏 14 分鐘

語音識別正在成為人類與互聯(lián)網(wǎng)溝通的新主流方式。

近日,一份來自大西洋彼岸的報告成為很多人關(guān)注的焦點。

這份由美國知名投資機構(gòu)Mangrove Capital Partners發(fā)布的《2019年語音技術(shù)報告》(以下簡稱報告)指出:2025年語音經(jīng)濟規(guī)?;?qū)⑦_1萬億美元,正式超過移動應(yīng)用經(jīng)濟。

人們早已經(jīng)捕捉到了某種信號。

過去幾年,谷歌、微軟、亞馬遜、百度等全球科技巨頭紛紛押注語音賽道,投影在人們面前的是接踵而至的明星語音產(chǎn)品——Echo智能音箱、Siri智能語音助手、GoogleAssistant谷歌語音助手、Cortana(微軟小娜)人工智能助理、Alexa語音識別引擎、百度小度助手(DuerOS)。

一個明顯的感覺是:語音識別正在成為人類與互聯(lián)網(wǎng)溝通的新主流方式。

但熱火朝天、寸土必爭的搶跑下注背后,人們不禁會想到那個柏拉圖式的問題:智能語音到底是什么?它從哪來?又要到哪去?

一、科技巨頭搶灘智能語音

從歷史中不難找到關(guān)于語音技術(shù)的“蛛絲馬跡”。

早在80年前,首個能夠合成語音的機器誕生于美國新澤西州茉莉山上的貝爾實驗室,如果把語音技術(shù)的發(fā)展看成一條射線,那么這個被譽為世界上最偉大的實驗室可以看作是它的起點。

1954年,藍色“巨人” IBM與喬治城語言學(xué)家合作成功研制出一臺能夠把60句俄語話翻譯成英語的機器。而在不久后,第一個基于計算機的語音合成系統(tǒng)面世,語音技術(shù)就此開始被疊加著與日俱增的想象。

人類最不缺乏兩種能力,一種是想象力,另一種是創(chuàng)造力。但即使用幾十年后的今天來看當(dāng)時,也很難預(yù)測出語音技術(shù)的發(fā)展軌跡。

當(dāng)然,更難想到的是,這將成了一個全球的角斗場。

對于智能語音技術(shù),坊間有一個頗為形象的比喻——遙控中樞。在一切都趨向具像化的如今,語音自然成了下一個產(chǎn)品形態(tài)的“摩斯密碼”。誰能制定密碼規(guī)則,誰就能掌控全局。

這是一場持久戰(zhàn)。

縱觀當(dāng)下世界智能語音交互市場的幾大主要玩家,百度從2010年開始做語音技術(shù),如今已近十年;美國的亞馬遜Alexa花了二十二年;即便是誕生最晚的谷歌Google Assistant也有著近十余年的數(shù)據(jù)沉淀。

騏驥千里非一日之功。掩藏在如今頗具智能化的Siri、谷歌助理、微軟小娜以及百度小度背后的是這個行業(yè)高筑的技術(shù)護城河。

今年年初,百度公布了語音領(lǐng)域的四項重大技術(shù)突破,其中,在線語音領(lǐng)域全球首創(chuàng)的流式多級的截斷注意力模型(SMLTA,全稱為「Streaming trancated multi-layerattention」),被業(yè)界人士將該項技術(shù)突破評價為技術(shù)領(lǐng)域的“登月計劃”。

在剛過去不久的AI開發(fā)者大會上,百度展示的一項“全雙工免喚醒”能力,又一次刷新了目前人機語音交互智能程度的上限。全雙工免喚醒能力是小度助手5.0的重要技術(shù)革新。

在全雙工狀態(tài)下的小度,除了能實現(xiàn)免喚醒詞連續(xù)對話之外,還有一個非常關(guān)鍵的技術(shù)突破,稱之為“拒絕反應(yīng)”,即小度知道什么時候該應(yīng)答和執(zhí)行任務(wù),什么時候只需要聽著,不搭話、不反應(yīng)——簡單說,語音技術(shù)的突破,讓機器的表現(xiàn)更逼近“真人”了。

在現(xiàn)場,觀眾們感受到的只是更順滑的對話、更懂事兒的智能印象,但背后卻是諸多學(xué)術(shù)難題的一一攻克。

去年公布的第二十屆中國專利評審結(jié)果中,百度的語音、機器翻譯、無人車相關(guān)三項專利獲獎,成為人工智能領(lǐng)域至今為止在國內(nèi)專利界獲得的最高級別政府獎項。

在此之中,“語音專利”涉及的新語音識別模型——采用深度學(xué)習(xí)算法在24時內(nèi)對數(shù)以百億級的大規(guī)模數(shù)據(jù)進行實時分析,高性能計算,令語音識別技術(shù)的準確率達97%,解決了語音識別領(lǐng)域關(guān)鍵性、共性的技術(shù)難題,被MIT 評為“2016年全球十大突破技術(shù)”。

在AI開發(fā)者大會上,百度還推出了針對遠場語音交互的鴻鵠芯片,可以實現(xiàn)遠場陣列信號實時處理,高精度超低誤報語音喚醒以及離線語音識別。

另一邊,百度旗下的明星產(chǎn)品小度智能音箱在今年第一季度更是達到了330萬臺的超高出貨量,位居中國市場榜首。

顯然,百度正在建立從硬件底層芯片、到上層的智能硬件系統(tǒng),再到系統(tǒng)軟件,語音客戶端,語音服務(wù)器及后端交互一體化的全鏈路語音交互技術(shù)。

可以肯定的是,下一個十年,語音技術(shù)將成為新的決定性主題。

二、“技術(shù)+場景”才是王道

人工智能發(fā)展至今共歷經(jīng)了三次浪潮。

第一次浪潮使用算法建立了推薦引擎,提供訪問互聯(lián)網(wǎng)服務(wù),推動了谷歌、亞馬遜和Facebook的崛起。

第二次浪潮幫助企業(yè)利用結(jié)構(gòu)化數(shù)據(jù)去優(yōu)化決策流程,帶動了類似Palantir這樣的大數(shù)據(jù)公司的出現(xiàn),它們挖掘大量結(jié)構(gòu)化數(shù)據(jù),找出人眼和人腦難以發(fā)現(xiàn)的信息關(guān)聯(lián)性。

現(xiàn)在人工智能第三次浪潮襲來,人工智能獲得了眼睛、耳朵和無數(shù)其他感官,可以收集從來沒有過的新數(shù)據(jù),隨后使用這些數(shù)據(jù)推動更復(fù)雜的流程自動化。

這次變革顯然不同以往。恰如最近李彥宏在《人民日報》發(fā)表的文章中所說:“作為引領(lǐng)此次變革的戰(zhàn)略性技術(shù),人工智能對世界的影響將遠超以往歷次工業(yè)革命?!?/p>

事實確實如此,在人工智能的大潮下,眾多領(lǐng)域的既有模式被重塑,應(yīng)用場景不斷顛覆,生產(chǎn)關(guān)系開始被重新制定。

而其中,語音則是極其重要的一環(huán)。

擺脫了文字和屏幕的束縛,語音技術(shù)從根本意義上改變了人們與軟件交互的方式,可以完全替代移動應(yīng)用成為未來通訊的主要方式。

如果說現(xiàn)在人們與移動應(yīng)用的互動是二維的,那么語音交互就是三維立體的,而這種升維競爭同樣也裹挾著互聯(lián)網(wǎng)的商機。

語音技術(shù)領(lǐng)域不斷攀升的融資金額是最為明顯的一個例證。報告數(shù)據(jù)顯示:今年語音技術(shù)創(chuàng)業(yè)公司融資額高達7.86億美元,遠遠超過2018年的5.81億美元以及2017年的2.98億美元,同時每筆融資的規(guī)模也在大幅上升。

百度是當(dāng)之無愧的領(lǐng)頭羊。

作為最早布局人工智能的技術(shù)公司之一,百度擁有建立在超大規(guī)模神經(jīng)網(wǎng)絡(luò)、萬億級參數(shù)、千億級樣本上的人工智能算法,依托數(shù)十萬服務(wù)器和中國最大的GPU集群的計算能力。

作為中國最大的搜索引擎公司,百度還收集了大量漢語(尤其是普通話)的音頻數(shù)據(jù),這些都為百度語音識別系統(tǒng)Deep Speech 2技術(shù)成果提供了基本的數(shù)據(jù)優(yōu)勢與支持。

百度美國的人工智能實驗室負責(zé)人Adam Coates 曾表示:至2017年2月份,Deep Speech 2的短語識別詞錯率已經(jīng)降到了3.7%,在轉(zhuǎn)錄某些語音的能力也基本上是“超人級的”,能夠比普通話母語者更精確地轉(zhuǎn)錄較短的查詢。

更引起外界關(guān)注的,是建立在語音識別、圖像識別、自然語言處理、用戶畫像等技術(shù)能力之上的小度人工智能語音助手(DuerOS對話式人工智能系統(tǒng))——百度技術(shù)的集大成者。

從2015年的“度秘”到2017年發(fā)布的DuerOS,再到2018年發(fā)布的一系列小度智能硬件產(chǎn)品,小度人工智能語音助手保持著穩(wěn)定的迭代速率,不斷融入新能力,以開放的姿態(tài)構(gòu)建軟硬結(jié)合的AI生態(tài)系統(tǒng),更好地服務(wù)合作伙伴,成為名副其實的“智慧中樞”。

從技術(shù)到產(chǎn)品,從產(chǎn)品到下游合作商,可以看出百度的智能語音系統(tǒng)已然初步成型。技術(shù)與具體場景相結(jié)合,在智能語音交互技術(shù)領(lǐng)域,百度正發(fā)揮著“標桿”的作用。

三、語音,撬動未來商業(yè)的關(guān)鍵

通用電氣前CEO,被認為二十世紀最杰出CEO的杰克·韋爾奇曾在他的自傳中寫道:「如果你想讓車再快十公里,只需加一加油門,如果讓車速提高一倍,就要換軌道了?!?/p>

事實是,商業(yè)的軌道正在發(fā)生偏移。

《2019語音技術(shù)報告》中有這樣一種觀點:“語音交互扭轉(zhuǎn)了以往人機交互的存在形態(tài),用戶與設(shè)備間基于語音交互的全新關(guān)系開始搭建,與之前互聯(lián)網(wǎng)向移動互聯(lián)網(wǎng)過渡一樣,其對底層平臺的全新需求也在醞釀當(dāng)中。”

從商業(yè)的發(fā)展模式來看,變革分兩種,一種是自上而下,另一種是自下而上。前者要求市場迅速調(diào)整身位,迅速利用新的排列組合應(yīng)對新變化;后者重體驗,形態(tài)更迭更加悄然無聲,但更堅韌,也更持久。

語音技術(shù)對于商業(yè)形態(tài)的影響正如后者。

不妨對未來的商業(yè)雛形做個預(yù)測:在未來某個時間節(jié)點,我們不再需要打字,而是可以使用語音盒手勢,鍵盤基本消亡,在語音技術(shù)的加持下,產(chǎn)品形態(tài)將會被徹底改變,無屏幕的智能手機、語音電商、語音廣告、個性化的品牌語音……

這個預(yù)測正在發(fā)展成現(xiàn)實。

有數(shù)據(jù)為證,根據(jù)Juniper的數(shù)據(jù)顯示:在美國和英國,未來幾年語音電商將迎來集中爆發(fā),規(guī)模將從2018年的20億美元增長至2022年的400億美元。

同步落地的還有亞馬遜的語音廣告業(yè)務(wù),消息稱:亞馬遜正計劃開發(fā)Alexa語音助手的商業(yè)價值,進而建立一個大型的數(shù)字廣告業(yè)務(wù),測試包括視頻在內(nèi)的多種廣告產(chǎn)品,為2018年廣告營收增長做準備。

頻頻布局的背后是各家對語音技術(shù)商業(yè)價值的篤定。

盡管如今留給智能語音技術(shù)的難題還有很多,但在此刻提前布局,構(gòu)筑好技術(shù)底座,待浪潮再次涌來之時,便能乘勢而上。

可以預(yù)見:中國智能語音市場也將成為推動這股浪潮不可或缺的力量和重要參與者。正如在中國徒步旅行三個月的英國大臣麥克·貝茨所記錄的那樣:“這片土地從來不缺乏奇跡?!?/p>

 

作者:令諸侯,微信公眾號:新摘商業(yè)評論

本文由@新摘商業(yè)評論 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash, 基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 感覺這是在這硬生生的舔屏百度嗎?

    來自山東 回復(fù)