音箱狂歡之后:對話式AI的價值與沉默

1 評論 4056 瀏覽 10 收藏 8 分鐘

如何解決對話式AI的后狂歡之痛?

今年的消費者AI領(lǐng)域,最受關(guān)注的一場大戰(zhàn),肯定是智能音箱的狂飆突進(jìn)。

這場堪稱狂歡的運(yùn)動中,除了一大波硬件產(chǎn)品的快起快落,更大的收獲在于,我們看到了對話式AI的技術(shù)本身也許有超越音箱的價值。

在智能音箱的快速落地之后,消費者和資本一方面開始認(rèn)識到語音交互可能帶來的想象空間與增值潛力,一方面也意識到智能音箱在技術(shù)體驗上存在巨大技術(shù)局限——甚至有聲音斷言,對話式AI本身不提高,所有今天假想的語音AI生態(tài)都是空談。

泡沫過后,后狂歡時代中對話式AI亟待解決的問題開始浮現(xiàn)。今天的對話式AI中,產(chǎn)業(yè)格局暴露了哪些提升空間?如何理解其所面臨的問題與機(jī)遇?谷歌、亞馬遜、百度等巨頭又在嘗試哪些破局方案?

音箱狂歡之后:對話式AI的價值與沉默

所謂對話式AI,是指機(jī)器與人在對話服務(wù)場景中展現(xiàn)出的AI技術(shù)集成。

智能音箱的快速進(jìn)入市場的價值,不僅是是為AI開了個好頭,更重要的是讓受眾與資本看到了對話——這種人類最基本的信息釋放模式可能帶來怎樣的價值想象力。

不僅是內(nèi)容與電商的激活,高度貼合用戶習(xí)慣,且具備多種能力的對話式AI也許有能力成為接下來的家庭中心與個人生活助手、商業(yè)秘書。其延伸的商業(yè)價值當(dāng)然不難想象。并且對話式AI是牽動其他多種AI語音交互的關(guān)鍵,涉及語音理解、語義判斷、語言增強(qiáng)記憶和深度語言交互等多個技術(shù)端口,可謂NLP技術(shù)向未來發(fā)展的軸心。

但問題是,在音箱狂歡逐漸趨于理性之后,很多對話式AI在系統(tǒng)端的技術(shù)能力問題開始浮現(xiàn)。比如理解能力有限、喚醒成本過大、深入用戶溝通能力缺失等等。

這些技術(shù)瓶頸導(dǎo)致了對話式AI全面轉(zhuǎn)向個人與家庭助手的過度將被限制,很多創(chuàng)意性的語言與聲音AI應(yīng)用也成了無本之源。無論是學(xué)界、巨頭還是創(chuàng)業(yè)者,都在共同期待智能語音完成一個快速的躍升。

三重門:強(qiáng)AI語音應(yīng)用的難題何在

擺在強(qiáng)語音交互的對話式AI面前,最急需解決的是三大問題??邕^這三重門,或許終端硬件與服務(wù)將帶給用戶完全不同的認(rèn)知體驗,甚至重新定義對話式AI。

  1. 對用戶語音的貼合認(rèn)知:消弭噪聲、方言、多人、語音不清等因素帶給人機(jī)交互的障礙,讓用戶在現(xiàn)實環(huán)節(jié)中與智能體溝通沒有磕絆,達(dá)到無成本溝通。
  2. 極限化降低喚醒成本:完成對喚醒行為的無死角響應(yīng),因為喚醒效率低往往導(dǎo)致用戶徹底放棄一次人機(jī)交互。但如何在復(fù)雜環(huán)境中隨時能被喚醒,做到無處不在,其中有很多技術(shù)場景需要挑戰(zhàn)。
  3. 從語義理解到記憶理解:從“我說你聽”到“共同探討”是一個非常劇烈的改變,智能體能否記憶并分析用戶的語境、上下文,給出智能化更高的應(yīng)對方案,甚至主動服務(wù)與建議,可說是對話式AI的未來核心。

這三道技術(shù)挑戰(zhàn)擺放在我們面前,而最有可能的破局者,當(dāng)然是行業(yè)中的幾大技術(shù)巨頭。

對話式AI難題的破解思路

在對話式AI的破局路徑中,幾個AI巨頭也在嘗試不同的方案。

比如谷歌更多是通過收購相關(guān)項目與API解決方案,加強(qiáng)對谷歌大腦技術(shù)的訓(xùn)練強(qiáng)度,來獲得對話式AI的提升。在以谷歌大腦為中心的對話式AI研發(fā)中,谷歌嘗試使用不同的語料因素和學(xué)習(xí)樣本來強(qiáng)化智能體在對話時的記憶強(qiáng)度與修辭模式。通過對文學(xué)作品、社交媒體資料的學(xué)習(xí),來完善對話式AI的強(qiáng)度溝通可能。另一方面,谷歌也在不斷加強(qiáng)研發(fā)和收購對話式AI與硬件銜接之間的解決方案,通過軟硬件結(jié)合達(dá)成更好的AI體驗。

而在Echo上比較成功的亞馬遜,目前更多資料顯示還是在產(chǎn)業(yè)端戰(zhàn)略布局。在持續(xù)研發(fā)升級對話AI技術(shù)的同時,也與智能家居產(chǎn)品、個人助手軟件,以及其他公司的對話式AI產(chǎn)品形成聯(lián)動模式。依靠使用體驗的強(qiáng)化加深產(chǎn)業(yè)占有率。

就在剛剛,百度發(fā)布了一項針對對話式AI的計劃:DuerOS普羅米修斯計劃。計劃包含開放數(shù)據(jù)集、跨學(xué)科合作等多種計劃,還將設(shè)立100萬美元的基金用以資助和培養(yǎng)對話式AI領(lǐng)域的優(yōu)秀項目和人才。

這個計劃與歐美巨頭之間,在兩方面展現(xiàn)了差異:1是將產(chǎn)業(yè)研發(fā)與學(xué)術(shù)研發(fā)結(jié)合起來,引導(dǎo)學(xué)術(shù)力量破解產(chǎn)業(yè)問題;2是相比大公司普遍的秘密研發(fā)計劃,這個計劃的特點是開放。把研究工具進(jìn)行開源,然后期待回收以這些工具完成的研發(fā)結(jié)果。

其中最重要的,顯然是對大量對話式AI數(shù)據(jù)集的開源。因為此前的對話式AI領(lǐng)域中,數(shù)據(jù)集普遍非常古老,不適應(yīng)今天的平臺,并且基本需要收費且為全英文。對于中文語言交互的研發(fā)非常不利。

目前所知,百度剛剛開源的數(shù)據(jù)集包括:遠(yuǎn)場喚醒方面五十萬條“小度小度”和其他主流的中文喚醒詞錄音數(shù)據(jù)、數(shù)百小時的誤喚醒錄音數(shù)據(jù);遠(yuǎn)場識別方面則有數(shù)千小時中文遠(yuǎn)場語音識別數(shù)據(jù);多輪對話方面含有萬段對話數(shù)據(jù)。

開源資料與工具包,然后以競賽的方式回收成果,是我們此前在機(jī)器學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)方面經(jīng)常見到的模式,但語音交互領(lǐng)域這樣的計劃還非常稀少。不難看出,巨頭對于對話式AI的發(fā)展已經(jīng)表現(xiàn)出了更加急迫的期待?;蛟S在接下來的短時間內(nèi),國內(nèi)外巨頭推出更加激進(jìn)、開放的對話式AI研究計劃會成為主流。

對話服務(wù)與AI,可以說來到了臨門一腳的重要時期,但最后如何完成射門,可能是大公司們正在頭疼的問題。

 

本文由 @腦極體 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖有作者提供

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!