国产三级在线现看影院,99re6免费视频精品全部

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

音箱狂歡之后：對話式AI的價值與沉默

腦極體

2017-11-11

1 評論 4056 瀏覽 10 收藏

8 分鐘

如何解決對話式AI的后狂歡之痛？

今年的消費者AI領(lǐng)域，最受關(guān)注的一場大戰(zhàn)，肯定是智能音箱的狂飆突進(jìn)。

這場堪稱狂歡的運(yùn)動中，除了一大波硬件產(chǎn)品的快起快落，更大的收獲在于，我們看到了對話式AI的技術(shù)本身也許有超越音箱的價值。

在智能音箱的快速落地之后，消費者和資本一方面開始認(rèn)識到語音交互可能帶來的想象空間與增值潛力，一方面也意識到智能音箱在技術(shù)體驗上存在巨大技術(shù)局限——甚至有聲音斷言，對話式AI本身不提高，所有今天假想的語音AI生態(tài)都是空談。

泡沫過后，后狂歡時代中對話式AI亟待解決的問題開始浮現(xiàn)。今天的對話式AI中，產(chǎn)業(yè)格局暴露了哪些提升空間？如何理解其所面臨的問題與機(jī)遇？谷歌、亞馬遜、百度等巨頭又在嘗試哪些破局方案？

音箱狂歡之后：對話式AI的價值與沉默

所謂對話式AI，是指機(jī)器與人在對話服務(wù)場景中展現(xiàn)出的AI技術(shù)集成。

智能音箱的快速進(jìn)入市場的價值，不僅是是為AI開了個好頭，更重要的是讓受眾與資本看到了對話——這種人類最基本的信息釋放模式可能帶來怎樣的價值想象力。

不僅是內(nèi)容與電商的激活，高度貼合用戶習(xí)慣，且具備多種能力的對話式AI也許有能力成為接下來的家庭中心與個人生活助手、商業(yè)秘書。其延伸的商業(yè)價值當(dāng)然不難想象。并且對話式AI是牽動其他多種AI語音交互的關(guān)鍵，涉及語音理解、語義判斷、語言增強(qiáng)記憶和深度語言交互等多個技術(shù)端口，可謂NLP技術(shù)向未來發(fā)展的軸心。

但問題是，在音箱狂歡逐漸趨于理性之后，很多對話式AI在系統(tǒng)端的技術(shù)能力問題開始浮現(xiàn)。比如理解能力有限、喚醒成本過大、深入用戶溝通能力缺失等等。

這些技術(shù)瓶頸導(dǎo)致了對話式AI全面轉(zhuǎn)向個人與家庭助手的過度將被限制，很多創(chuàng)意性的語言與聲音AI應(yīng)用也成了無本之源。無論是學(xué)界、巨頭還是創(chuàng)業(yè)者，都在共同期待智能語音完成一個快速的躍升。

三重門：強(qiáng)AI語音應(yīng)用的難題何在

擺在強(qiáng)語音交互的對話式AI面前，最急需解決的是三大問題?？邕^這三重門，或許終端硬件與服務(wù)將帶給用戶完全不同的認(rèn)知體驗，甚至重新定義對話式AI。

對用戶語音的貼合認(rèn)知：消弭噪聲、方言、多人、語音不清等因素帶給人機(jī)交互的障礙，讓用戶在現(xiàn)實環(huán)節(jié)中與智能體溝通沒有磕絆，達(dá)到無成本溝通。
極限化降低喚醒成本：完成對喚醒行為的無死角響應(yīng)，因為喚醒效率低往往導(dǎo)致用戶徹底放棄一次人機(jī)交互。但如何在復(fù)雜環(huán)境中隨時能被喚醒，做到無處不在，其中有很多技術(shù)場景需要挑戰(zhàn)。
從語義理解到記憶理解：從“我說你聽”到“共同探討”是一個非常劇烈的改變，智能體能否記憶并分析用戶的語境、上下文，給出智能化更高的應(yīng)對方案，甚至主動服務(wù)與建議，可說是對話式AI的未來核心。

這三道技術(shù)挑戰(zhàn)擺放在我們面前，而最有可能的破局者，當(dāng)然是行業(yè)中的幾大技術(shù)巨頭。

對話式AI難題的破解思路

在對話式AI的破局路徑中，幾個AI巨頭也在嘗試不同的方案。

比如谷歌更多是通過收購相關(guān)項目與API解決方案，加強(qiáng)對谷歌大腦技術(shù)的訓(xùn)練強(qiáng)度，來獲得對話式AI的提升。在以谷歌大腦為中心的對話式AI研發(fā)中，谷歌嘗試使用不同的語料因素和學(xué)習(xí)樣本來強(qiáng)化智能體在對話時的記憶強(qiáng)度與修辭模式。通過對文學(xué)作品、社交媒體資料的學(xué)習(xí)，來完善對話式AI的強(qiáng)度溝通可能。另一方面，谷歌也在不斷加強(qiáng)研發(fā)和收購對話式AI與硬件銜接之間的解決方案，通過軟硬件結(jié)合達(dá)成更好的AI體驗。

而在Echo上比較成功的亞馬遜，目前更多資料顯示還是在產(chǎn)業(yè)端戰(zhàn)略布局。在持續(xù)研發(fā)升級對話AI技術(shù)的同時，也與智能家居產(chǎn)品、個人助手軟件，以及其他公司的對話式AI產(chǎn)品形成聯(lián)動模式。依靠使用體驗的強(qiáng)化加深產(chǎn)業(yè)占有率。

就在剛剛，百度發(fā)布了一項針對對話式AI的計劃：DuerOS普羅米修斯計劃。計劃包含開放數(shù)據(jù)集、跨學(xué)科合作等多種計劃，還將設(shè)立100萬美元的基金用以資助和培養(yǎng)對話式AI領(lǐng)域的優(yōu)秀項目和人才。

這個計劃與歐美巨頭之間，在兩方面展現(xiàn)了差異：1是將產(chǎn)業(yè)研發(fā)與學(xué)術(shù)研發(fā)結(jié)合起來，引導(dǎo)學(xué)術(shù)力量破解產(chǎn)業(yè)問題；2是相比大公司普遍的秘密研發(fā)計劃，這個計劃的特點是開放。把研究工具進(jìn)行開源，然后期待回收以這些工具完成的研發(fā)結(jié)果。

其中最重要的，顯然是對大量對話式AI數(shù)據(jù)集的開源。因為此前的對話式AI領(lǐng)域中，數(shù)據(jù)集普遍非常古老，不適應(yīng)今天的平臺，并且基本需要收費且為全英文。對于中文語言交互的研發(fā)非常不利。

目前所知，百度剛剛開源的數(shù)據(jù)集包括：遠(yuǎn)場喚醒方面五十萬條“小度小度”和其他主流的中文喚醒詞錄音數(shù)據(jù)、數(shù)百小時的誤喚醒錄音數(shù)據(jù)；遠(yuǎn)場識別方面則有數(shù)千小時中文遠(yuǎn)場語音識別數(shù)據(jù)；多輪對話方面含有萬段對話數(shù)據(jù)。

開源資料與工具包，然后以競賽的方式回收成果，是我們此前在機(jī)器學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)方面經(jīng)常見到的模式，但語音交互領(lǐng)域這樣的計劃還非常稀少。不難看出，巨頭對于對話式AI的發(fā)展已經(jīng)表現(xiàn)出了更加急迫的期待?；蛟S在接下來的短時間內(nèi)，國內(nèi)外巨頭推出更加激進(jìn)、開放的對話式AI研究計劃會成為主流。

對話服務(wù)與AI，可以說來到了臨門一腳的重要時期，但最后如何完成射門，可能是大公司們正在頭疼的問題。

本文由 @腦極體原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

題圖有作者提供

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App