為什么每次和 Siri 聊天,我都一肚子火?

3 評(píng)論 5241 瀏覽 20 收藏 18 分鐘

人工智能還是…人工智障?

全世界最痛苦的事,就是和一個(gè)跟你不在同一頻道的人尬聊。

相反,和自己的親朋好友另一半說(shuō)話(huà)就輕松多了,比如你說(shuō) “今天上班好累啊”,你的家人、朋友就會(huì)說(shuō),“那今晚別做飯了,咱們出去吃?”

這種默契才是檢驗(yàn)交情深淺的唯一標(biāo)準(zhǔn)!

人和人之間有默契不罕見(jiàn),但你能想象人和機(jī)器之間產(chǎn)生默契嗎?

還真有可能!小探獨(dú)家采訪(fǎng)了來(lái)自硅谷的初創(chuàng)公司 Mosaix 的 CEO 兼創(chuàng)始人 Sam,以及 Mosaix 的 Chief Science Officer (以下簡(jiǎn)稱(chēng) CSO)勞逆,讓這兩位小哥給我們講講他們是打算怎么讓 AI 一步步成為我們的貼心小棉襖的。

(左為 Mosaix CEO、創(chuàng)始人 Sam;右為 Mosaix CSO 勞逆)

人工智能還是…人工智障?

這兩年不論亞馬遜的 Echo,還是 Google 的 Google Home,各種語(yǔ)音助手都很火。但我們可以想象一下,假如你的語(yǔ)音助手是個(gè)笨蛋,你和它交流起來(lái)該有多么痛苦。

我們來(lái)設(shè)想這么個(gè)場(chǎng)景:你吃著東西滿(mǎn)手都是油,或者在洗碗滿(mǎn)手都是泡沫,總之你騰不出手?jǐn)[弄你的音響。這時(shí)你突然想聽(tīng)一首歌,于是你對(duì)音響說(shuō):

– 給我放首 Justin 的歌兒。

– 是名字里帶有 Justin 的歌曲?還是歌手是 Justin 的歌?

– 歌手是 Justin 的歌。

– 是賈老板 Justin Timberlake,還是賈斯丁?逼寶?

– 賈斯丁?逼寶。

– 你是想聽(tīng)他最新的歌曲?還是榜單位置最高的歌曲?還是播放次數(shù)最高的歌曲?還是點(diǎn)贊次數(shù)最高的歌曲?

你覺(jué)得有點(diǎn)煩,但還是說(shuō) “都行。”

– 你想從 Spotify 播放?還是 YouTube 播放?還是 iTunes 播放?

這時(shí)你臉色已經(jīng)很難看了,但考慮到你的人工智能是個(gè)人工智障,你還是強(qiáng)壓怒火說(shuō),“那就 YouTube 吧”。

– YouTube 您想聽(tīng)播放量最高的視頻、還是評(píng)論數(shù)最高的視頻、還是好評(píng)率最高的、還是最新視頻?

讓機(jī)器真正懂你的意思,就是 Mosaix 想達(dá)成的目標(biāo)之一。

這么說(shuō)吧,我們?nèi)撕腿私涣?,是從耳朵(?tīng)到別人講話(huà))、到大腦(明白別人的意思)、再到用手腳執(zhí)行大腦發(fā)出的命令。

人和機(jī)器交流也一樣:先到機(jī)器的 “耳朵”,也就是負(fù)責(zé)聽(tīng)懂我們?nèi)祟?lèi)到底在說(shuō)些什么的語(yǔ)音技術(shù);再到負(fù)責(zé)理解這句話(huà)意思的大腦,也就是 Mosaix;再到執(zhí)行命令,也就是連著 Mosaix 的各種服務(wù)。

Mosaix CSO 勞逆告訴小探,現(xiàn)在語(yǔ)音喚醒、語(yǔ)音識(shí)別之類(lèi)的技術(shù)已經(jīng)比較成熟,機(jī)器已經(jīng)能夠比較準(zhǔn)確地把我們?nèi)祟?lèi)說(shuō)話(huà)時(shí)發(fā)出的聲音變成一句話(huà)。

現(xiàn)在的難點(diǎn)是:機(jī)器還是不太懂每句話(huà)都是什么意思、到底該怎么把它翻譯成一個(gè)可以直接在網(wǎng)上執(zhí)行的命令?這部分就是 Mosaix 做的語(yǔ)義理解。

而機(jī)器之所以經(jīng)常聽(tīng)不懂我們?nèi)祟?lèi)說(shuō)話(huà),是因?yàn)槲覀冇袝r(shí)說(shuō)話(huà)會(huì)說(shuō)不清楚,也就是 “語(yǔ)義缺失”。

“我想放松一下”

什么叫“語(yǔ)義缺失”?小探給你舉個(gè)例子:

找下五公里內(nèi)最便宜的加油站” 和 “我想放松一下” 這兩句話(huà),你覺(jué)得哪句更容易被機(jī)器聽(tīng)懂?

答案是第一句,因?yàn)檫@句話(huà)已經(jīng)包含了機(jī)器語(yǔ)言所有的要素:

  • 先以你的位置為圓心、畫(huà)個(gè)半徑為五公里的圓;
  • 然后把所有商家都找出來(lái)。

  • 再按商戶(hù)類(lèi)型過(guò)濾出加油站
  • 選出價(jià)格最低的一個(gè)
  • 搞定!

換句話(huà)說(shuō),“找下五公里內(nèi)所有加油站” 這句我們?nèi)祟?lèi)說(shuō)的話(huà),和機(jī)器所熟悉的語(yǔ)言很像、沒(méi)有缺失的語(yǔ)義,所以機(jī)器能直接把這句話(huà)翻譯成它能執(zhí)行的語(yǔ)言。

但當(dāng)機(jī)器聽(tīng)到 “我想放松一下” 這種非常抽象的話(huà)時(shí),機(jī)器的內(nèi)心是茫然而懵逼的,因?yàn)闄C(jī)器也不知道你的意思到底是播某一類(lèi)的歌?某一類(lèi)的電影?還是導(dǎo)航去什么地方。

不過(guò),如果一位和你很熟悉的朋友聽(tīng)到這句話(huà),他/她估計(jì)就能秒懂你的意思。感情深一口悶?別逗了,誰(shuí)能聽(tīng)懂你只說(shuō)了一半的話(huà),誰(shuí)才叫和你感情深。

這就是 Mosaix 想讓機(jī)器做的事情,Mosaix 想幫機(jī)器把缺失的語(yǔ)義 —— 也就是我們說(shuō)話(huà)太模糊的部分 —— 填進(jìn)句子里,而且還不能填錯(cuò)、曲解你的意思。

有意思的是,等這個(gè)技術(shù)再發(fā)展成熟些時(shí),它對(duì)一個(gè)人的了解可能比那個(gè)人的老公或老婆還多。比如,你的老公或老婆可能記住了你喜歡 A,但他/她不知道你為什么喜歡 A,換個(gè)場(chǎng)景他/她又要重新死記硬背。但 Mosaix 做的 AI 就能理解其背后邏輯、因此能舉一反三,不僅知其然、還知其所以然。

這還不算完!Mosaix 除了能理解你說(shuō)話(huà)的意思,還能在聽(tīng)懂后執(zhí)行你的要求。比如你說(shuō)你想聽(tīng)首 Justin Bieber 的歌,它還要自己決定從哪兒播放這首歌、從哪兒獲取信息。如果你有 Spotify 賬號(hào),它就知道自己從 Spotify 上搜;如果你說(shuō)你想看劇,那它也會(huì)自己去愛(ài)奇藝、搜狐視頻之類(lèi)的網(wǎng)站給你搜劇。

Mosaix 聲控電視

讓你直接對(duì)音箱、電視發(fā)號(hào)施令

讓機(jī)器能明白你說(shuō)的話(huà)到底是什么意思,只是 Mosaix 做的 “語(yǔ)音搜索” 這件事情的一部分。

什么,你說(shuō)你不明白什么叫語(yǔ)音搜索?你可以把它簡(jiǎn)單理解為:

Mosaix = 聲控搜索引擎(百度或谷歌)?+ 個(gè)人語(yǔ)音助理(亞馬遜的 Alexa 或蘋(píng)果的 Siri)

用其 Chief Scientist 勞逆的話(huà)說(shuō),Mosaix 是 “用自然對(duì)話(huà)的方式,解決 ‘搜索’ 這個(gè)本質(zhì)問(wèn)題”。我們剛才說(shuō)的讓機(jī)器聽(tīng)懂你說(shuō)的話(huà)、比你老公 / 老婆更懂你,只是個(gè)人語(yǔ)音助理這部分。

說(shuō)完了語(yǔ)音助理,我們?cè)賮?lái)說(shuō)說(shuō) “聲控搜索引擎” 這部分。

現(xiàn)在聲控搜索引擎主要有兩個(gè)問(wèn)題:

  1. 搜索得太“笨”,一字一句搜;
  2. 設(shè)備不夠智能。

(1)搜索得太笨

我們可以把人粗略地分成兩種:在度娘或 Google 上搜 “紅燒肉 做法” 的人(比如你),和搜 “紅燒肉應(yīng)該怎么做比較好吃呢?” 的人(比如你媽你姥姥)。如果你想得到盡量多的結(jié)果,很明顯前一種更好。

這就是傳統(tǒng)搜索引擎的問(wèn)題:它更傾向于一字一句地搜索。在人家輸入 “紅燒肉應(yīng)該怎么做比較好吃呢?” 的時(shí)候,它不一定能把這個(gè)問(wèn)題簡(jiǎn)化成 “紅燒肉 做法”。

你說(shuō)搜索引擎笨吧,它的確有全世界幾乎所有問(wèn)題的答案;你說(shuō)他聰明吧,稍微換種說(shuō)法問(wèn),它又回答不上來(lái)了…

除了搜索本身的不足,搜索設(shè)備也有局限性 —— 語(yǔ)音搜索更是如此。

(2)設(shè)備不夠智能

我們現(xiàn)在能用語(yǔ)音給手機(jī)下些簡(jiǎn)單的指令,但還沒(méi)辦法用換著法子用更高級(jí)的語(yǔ)音完成任務(wù)。換句話(huà)說(shuō),我們可以對(duì) Echo 說(shuō) “把燈關(guān)了”,然后 Echo 自己就關(guān)燈,不用我們動(dòng)手,這是簡(jiǎn)單聲控。

現(xiàn)在的電腦、電視,就停留在 “簡(jiǎn)單聲控” 階段:你可以對(duì)著電腦或電視說(shuō) “我要看《蜘蛛俠》”,然后電視自己給你播放。但如果你說(shuō) “我今天很累,來(lái)點(diǎn)有意思的”,電視可能就懵掉了。

Mosaix 的解決方法是:以其 App 為入口,用它的云端服務(wù)連接電視、汽車(chē)系統(tǒng)、音箱…等各種設(shè)備。然后 Mosaix 在后端處理你的請(qǐng)求,不論你用什么設(shè)備發(fā)出請(qǐng)求,請(qǐng)求都會(huì)百川匯海發(fā)給 Mosaix,等 Mosaix 處理好后再把答案發(fā)回去。

比如你在洗碗時(shí)對(duì)著帶有麥克風(fēng)的智能音箱說(shuō),“給我來(lái)點(diǎn)帶勁的”,音箱聽(tīng)到這個(gè)指示,就會(huì)問(wèn)在后臺(tái)運(yùn)行的 Mosaix:“ ‘給我來(lái)電帶勁的’ 這句話(huà)啥意思?” Mosaix 計(jì)算一番,弄明白意思后,就會(huì)告訴音箱放哪首歌。這樣從頭到尾,你只用聲控就能聽(tīng)歌、看電影、看新聞了。

Mosaix 與上汽合作工作圖

Mosaix 在成立之初,專(zhuān)門(mén)只做車(chē)上的應(yīng)用,現(xiàn)在則計(jì)劃擴(kuò)張到電視、音箱等任何不需要你盯著看、可以邊洗碗邊聽(tīng)的事情上。

人類(lèi)調(diào)教出來(lái)的 AI,就要比我們聰明了嗎?

基于機(jī)器學(xué)習(xí)的自然語(yǔ)言理解有兩種主要方式:強(qiáng)監(jiān)督學(xué)習(xí),和弱監(jiān)督學(xué)習(xí)。

所謂強(qiáng)監(jiān)督學(xué)習(xí),就是在訓(xùn)練機(jī)器聽(tīng)懂我們說(shuō)話(huà)的過(guò)程中,由人類(lèi)插手,親自告訴機(jī)器哪句話(huà)是什么意思、應(yīng)該怎么理解,因?yàn)橹挥腥祟?lèi)才知道 “這句話(huà)等于那句話(huà)”?;蛘咦寵C(jī)器從網(wǎng)上扒數(shù)據(jù),再由人類(lèi)提供反饋。

這種方式有個(gè)問(wèn)題:對(duì)于智能搜索需要面對(duì)的極大量的內(nèi)容來(lái)說(shuō),強(qiáng)監(jiān)督學(xué)習(xí)效率太低、很難規(guī)?;?。

另外,“由人類(lèi)插手” 意味著無(wú)法避免人為影響,所以最后 AI 理解的內(nèi)容做不到完全客觀、可能會(huì)有主觀色彩,而導(dǎo)致產(chǎn)生潛在的偏差。

而弱監(jiān)督學(xué)習(xí)則是 “不用人教、讓機(jī)器自己自主學(xué)習(xí)”。

據(jù)勞逆介紹,現(xiàn)在 Siri、Alexa 等語(yǔ)音助理,用的都是我們上兩段提到的強(qiáng)監(jiān)督學(xué)習(xí),強(qiáng)監(jiān)督學(xué)習(xí)也因此被認(rèn)為是正統(tǒng)。與之相反,很長(zhǎng)一段時(shí)間來(lái)弱監(jiān)督學(xué)習(xí)一直被當(dāng)成 “非主流”。

對(duì)這種觀點(diǎn)發(fā)起挑戰(zhàn)的,正是 Mosaix。

2017 年起,勞逆和他帶領(lǐng)的團(tuán)隊(duì)就開(kāi)始利用弱監(jiān)督加強(qiáng)學(xué)習(xí)解決自然語(yǔ)言理解問(wèn)題(順帶提一句,勞逆作為絕對(duì)的學(xué)術(shù)大牛,曾在谷歌擔(dān)任資深科學(xué)家多年,是自然語(yǔ)言領(lǐng)域理解和機(jī)器學(xué)習(xí)領(lǐng)域的專(zhuān)家,也是多個(gè)學(xué)術(shù)會(huì)議和期刊的編委或主席,但接受小探采訪(fǎng)時(shí)人卻非常低調(diào)謙虛)。

截止 2018年,他們所開(kāi)發(fā)的語(yǔ)義引擎在自然語(yǔ)言問(wèn)答三大公開(kāi)數(shù)據(jù)集上(斯坦福 Web Question and Answering、斯坦福 WikiTableQuestions、Salesforce WikiSQL),力壓微軟、谷歌、斯坦福、耶魯?shù)葯C(jī)構(gòu),取得了弱監(jiān)督條件下排名第一的好成績(jī)。

勞逆非常自豪地說(shuō),這證明了弱監(jiān)督加強(qiáng)學(xué)習(xí)在自然語(yǔ)言理解領(lǐng)域的潛力。對(duì)于語(yǔ)義明確的問(wèn)題弱監(jiān)督學(xué)習(xí)可以達(dá)到非常接近強(qiáng)監(jiān)督學(xué)習(xí)的效果。如果換成有 “語(yǔ)義缺失”的問(wèn)題,強(qiáng)監(jiān)督學(xué)習(xí)會(huì)遇到人類(lèi)智能的瓶頸,而弱監(jiān)督學(xué)習(xí)就可以輕易超越。

我們以 “機(jī)器下圍棋” 為例:

如果說(shuō)強(qiáng)監(jiān)督學(xué)習(xí)是人類(lèi)高手手把手教機(jī)器揣摩圍棋的話(huà),那么弱監(jiān)督學(xué)習(xí)就是機(jī)器本身以圍棋規(guī)則為準(zhǔn)、自己去 “領(lǐng)悟”、自己去總結(jié),從而學(xué)習(xí)下圍棋的。

圍棋 AI 的代表 AlphaGo,最初是在人類(lèi)棋譜的調(diào)教下,以強(qiáng)監(jiān)督學(xué)習(xí)的方式學(xué)習(xí)下圍棋,它可以 60:0 戰(zhàn)勝人類(lèi)頂尖高手。讓人沒(méi)想到的是,后來(lái)出現(xiàn)的 AlphaGoZero 青出于藍(lán) —— 依靠弱監(jiān)督加強(qiáng)學(xué)習(xí)的 AlphaGoZero 讓機(jī)器自己去 “領(lǐng)悟”,并最終以 89:11 戰(zhàn)勝 AlphaGo。

有沒(méi)有搞錯(cuò)?!和人類(lèi)學(xué)下棋的 AI,最后輸給了純靠學(xué)規(guī)則、自己教自己下棋的 AI…

而 Mosaix 對(duì)加強(qiáng)機(jī)器學(xué)習(xí)在自然語(yǔ)言理解領(lǐng)域的應(yīng)用,也和 AlphaGoZero 有異曲同工之處。

當(dāng)然,這并不是說(shuō)弱監(jiān)督學(xué)習(xí)已經(jīng)完全戰(zhàn)勝?gòu)?qiáng)監(jiān)督學(xué)習(xí)了,兩者根據(jù)應(yīng)用場(chǎng)景不同,有時(shí)難分高下,但至少隨著 Mosaix 的技術(shù)突破,提供了一種 “以弱勝?gòu)?qiáng)” 的可能性。

從商業(yè)角度看,Mosaix 意在把弱監(jiān)督學(xué)習(xí)產(chǎn)品化,變成能懂你心、當(dāng)你的貼心小棉襖的深度語(yǔ)義搜索

從 2017 年起,Mosaix 與上汽集團(tuán)開(kāi)始探索技術(shù)在出行領(lǐng)域的應(yīng)用。在完成了預(yù)研項(xiàng)目的基礎(chǔ)上,上汽北美創(chuàng)新中心認(rèn)為 “Mosaix 在語(yǔ)義識(shí)別方面積累的兩項(xiàng)獨(dú)特優(yōu)勢(shì) —— ‘基于位置的自然語(yǔ)言理解’ 和 ‘基于海外(?。┱Z(yǔ)種的語(yǔ)義分析’ 可以幫助上汽集團(tuán)差異化地進(jìn)軍海外、拓展國(guó)際市場(chǎng)。” 除了汽車(chē),Mosaix 還與全球領(lǐng)先的智能電視、電商、以及機(jī)器人品牌都展開(kāi)了合作。

Mosaix 為上汽自動(dòng)駕駛場(chǎng)景設(shè)計(jì)開(kāi)發(fā)智能助手

不過(guò),Mosaix 的野心顯然不止于此。

有預(yù)測(cè)顯示,2020 年時(shí)全球 50% 的搜索將是語(yǔ)音搜索。那些語(yǔ)音搜索的內(nèi)容,網(wǎng)上都能找到答案,但關(guān)鍵是怎樣給整個(gè)互聯(lián)網(wǎng)安上一個(gè)大腦,使它能夠聽(tīng)得懂我們說(shuō)的話(huà)?否則就算互聯(lián)網(wǎng)有答案,如果它聽(tīng)不懂我們語(yǔ)音搜索時(shí)說(shuō)的是什么,也還是不知道怎么回答我們 “給我放首 Justin 的歌” 之類(lèi)的問(wèn)題 —— 盡管 Justin 的歌就在網(wǎng)上。

而 Mosaix 正是想在 “讓互聯(lián)網(wǎng)聽(tīng)懂我們說(shuō)的話(huà)” 這個(gè)轉(zhuǎn)變過(guò)程中扮演關(guān)鍵角色。Mosaix 的長(zhǎng)期目標(biāo)是未來(lái)某一天,人們能以更方便的模式?—— 自然語(yǔ)言、或自然語(yǔ)言+屏幕交互 ——?接觸真正的、全新的、你直接說(shuō)話(huà)它就能聽(tīng)懂的互聯(lián)網(wǎng)。

這個(gè)任務(wù)當(dāng)然非常艱巨,誰(shuí)也無(wú)法保證成功,但就像勞逆和 Sam 在采訪(fǎng)結(jié)尾時(shí)說(shuō)的,“夢(mèng)想總是要有的,萬(wàn)一成功了呢?”

 

作者:硅谷密探,微信公眾號(hào) ID : guigudiyixian

本文由 @硅谷密探 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)源于網(wǎng)絡(luò)

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 語(yǔ)言,人類(lèi)最奇妙的進(jìn)化之一,但是語(yǔ)言的多樣性也很難使人工智能進(jìn)行邏輯操作,就拿中國(guó)的各地方言來(lái)說(shuō),就很頭疼了,你總不能一竿子打死,全說(shuō)普通話(huà)吧?相對(duì)的,方言是中國(guó)傳統(tǒng)特色之一,在將來(lái)如何讓人工智能聽(tīng)懂方言才是頭疼之處。

    來(lái)自北京 回復(fù)
  2. 現(xiàn)在的人工智能還在做語(yǔ)意理解,再搜索匹配的事?看空人工智能

    回復(fù)