Siri跌倒,蘋果吃飽
編輯導(dǎo)語:在蘋果總的產(chǎn)品序列中,Siri的發(fā)展似乎不那么“順利”;而透視Siri的整體發(fā)展歷程,我們應(yīng)該看到的,是智能語音交互當(dāng)下的發(fā)展現(xiàn)狀,及未來的迭代方向。本文作者針對Siri的發(fā)展,以及智能語音交互的未來做了解讀,一起來看一下。
蘋果吃飽,Siri跌倒,這是不爭的事實。
自2011年在iPhone 4S上驚艷亮相,Siri就成了蘋果的又一符號。畢竟,在那個人工智能剛剛進入深度學(xué)習(xí)的年代,不是每一個普通人都有機會與機器智能主體對話,相比于一款新功能,Siri更像一個未來文明的使者,讓AI的概念得以具象。
但隨著新鮮感褪去,很多問題開始接連浮出水面:開放對話環(huán)境中答非所問,對使用者的口音語調(diào)設(shè)置門檻,僅能完成iOS生態(tài)內(nèi)app的喚醒,十幾年來功能迭代緩慢,智能、語音、助手,定位打出的三個層次,無論是拆開還是組合,Siri都沒有達(dá)成使命。
作為蘋果的產(chǎn)品序列,它就像個異類,如同私生子一般,只有創(chuàng)新的色彩,卻失去了品牌下其他產(chǎn)品共有的實用基因。也正因如此,在蘋果連年增長的同時,人們對Siri的熱情漸漸黯淡,以至于悄悄關(guān)掉了“Hey Siri”的選項,不再喚醒。難道說,Siri的命運,僅僅是一個滿足獵奇的新歡?
問題的答案,可以用數(shù)學(xué)中的三個點來尋找。
一、零點
“零點不是點。”
這是數(shù)學(xué)中最常聽到的概念。作為函數(shù)圖像與軸的交點,零點更多強調(diào)了一種重合的狀態(tài),而非數(shù)量上的增減。如果把蘋果的業(yè)務(wù)布局看成一條函數(shù)圖像,那么Siri就是其中的零點:它是電子產(chǎn)品與高層次機器智能的交點,代表了向上探索的狀態(tài),卻不具備龐大的體量。
在被蘋果收購前,Siri就已經(jīng)獨立發(fā)展了2年,背靠官方科研項目,以第三方app的身份出現(xiàn)在蘋果應(yīng)用市場??粗辛苏Z音助手背后的廣闊前景,喬布斯以2億美元的價格拿下了Siri公司,由此,蘋果有了自己的AI。
喬布斯對Siri的欣賞顯而易見。遺憾的是,發(fā)布后第二天,喬布斯病逝。在接下來頻繁的人員變動中,沒有堅決果斷的引領(lǐng)者出現(xiàn),Siri開始迷失了自己的方向。投入不足、定位不清、系統(tǒng)封閉,讓Siri的下坡路成為必然。
坦白來說,Siri在發(fā)布時就算不上成功。推出是草率的,初代功能十分局限。當(dāng)時的Siri只能響應(yīng)設(shè)置鬧鐘、打開app等簡單的操作指令;而面對發(fā)送短信、撥打電話、信息檢索等涵蓋更多語言元素、更為靈活的語音指令,卻存在明顯的識別漏洞。
從人工智能深度學(xué)習(xí)的特性來看,這一問題并不難解決,只需要加大訓(xùn)練量就可以逐漸優(yōu)化。問題在于,Siri并不是蘋果的全部,與之同期進行的項目太多,既有地圖、iBook等應(yīng)用,又有iPad Air、iPad Pro、Apple Watch等新產(chǎn)品線。資源被分割,讓本就沒有多少經(jīng)驗可供參考的Siri舉步維艱,“進化”被一推再推;再加上項目負(fù)責(zé)人威廉姆森的一意孤行,本該持續(xù)更新的Siri只能跟隨iOS系統(tǒng)一年一更,使得進步的空間進一步壓縮。
除了投入不夠,定位不清也是一大問題。按照Siri創(chuàng)始人的假設(shè),語音助手應(yīng)當(dāng)是“執(zhí)行引擎”(do engine),而非簡單的“搜索引擎”。這就意味著Siri要像一個生活中的朋友,不僅能夠響應(yīng)程式化的指令,還要具備應(yīng)對開放性對話場景的能力,前者對應(yīng)自然語言處理(NLP),后者對應(yīng)了更高難度的自然語言理解(NLU)。
然而,蘋果內(nèi)部支持Siri的高管因為內(nèi)斗相繼離職、原始技術(shù)團隊出走,讓“最初的夢想”被涂抹了底色。搜索的功能被放大。除了簡單的日常用語外,大部分語句都會被轉(zhuǎn)化為搜索指令,哪怕文本中包含了“Apple”“Siri”“you”等指向性很強的詞語,它也無法識別到用戶的對話請求,依然會跳轉(zhuǎn)到web search界面。
另外,在部分用戶惡意引導(dǎo)下出現(xiàn)的人群歧視、政治傾向等敏感問題,也促使了技術(shù)團隊做出“一刀切”的決定,讓簡單的搜索成為擋箭牌。
至于系統(tǒng)封閉,就是眾所周知的毛病了。身處iOS圍墻內(nèi),外部開發(fā)人員無法介入,對于依靠海量數(shù)據(jù)觸發(fā)學(xué)習(xí)的人工智能來說,這個弱點無疑是致命的。雖然后來亡羊補牢地推出了SiriKit接入第三方,但是為時已晚,智能語音助手的市場已經(jīng)有了第三方功能更為豐富的Amazon Alexa和Google Assistant,蘋果也因此丟掉了先發(fā)優(yōu)勢。
二、奇點
奇點,在數(shù)學(xué)中指那些無法定義的點。如Siri一樣的智能語音助手們,正是一個個奇點。
作為后起之秀,它們并不是老牌科技公司的主營業(yè)務(wù),得不到百分百的關(guān)注;在技術(shù)領(lǐng)域仍存在的諸多未知,也讓發(fā)展有了階段性的天花板,怎樣安排智能語音助手在業(yè)務(wù)板塊中的位次,答案有些模棱兩可。
從蘋果目前的表現(xiàn)來看,很顯然,Siri只被當(dāng)作一個微不足道的功能模塊。耗盡了發(fā)布之初新鮮感帶來的紅利,如今淪為標(biāo)配,仿佛約定俗成,每一款新產(chǎn)品都會搭載Siri,卻不見多少提升;難以成為拉高硬件銷量的賣點,甚至于在HomePod中“倒戈一擊”,間接導(dǎo)致了產(chǎn)品的下線。
實際上,模塊化并不是唯一的選擇,在奇點中,趨向無窮的點被定義為極點。與之相似,語音助手也可以成長為龐大的“極”。
發(fā)布于2014年的Amazon Alexa就是很好的例子。
在發(fā)布時間上未能搶得先機,不代表產(chǎn)品本身技不如人。遲到的三年,反而讓Alexa得以充分進化算法。與智能音箱Echo一同問世,也表明了對產(chǎn)品的設(shè)想絕不僅僅是輔助性的功能模塊,而是一個具備巨大增長空間的業(yè)務(wù)版塊,圍繞著Alexa,又會衍生出諸多觸手,覆蓋更廣的應(yīng)用場景。在產(chǎn)品功能上,與蘋果生態(tài)的封閉性截然相反,開放的環(huán)境讓Alexa擁有上萬功能,包括但不限于外賣訂餐、每日一問、關(guān)注球隊賽況更新等。
獨立的產(chǎn)品形態(tài)提供了“沉浸式”語音交互體驗,但這并不是成功的關(guān)鍵。Alexa能夠達(dá)到Siri難以企及的高度,更主要的原因是技術(shù)在場景中的下沉。
智能音箱的形態(tài),對應(yīng)著家庭日常生活的應(yīng)用場景;反過來,家庭場景就要求產(chǎn)品具備特定的屬性,比如對不同年齡的匹配性、娛樂性、陪伴性等等,上升至功能,又對應(yīng)著強語言理解能力、豐富的指令選項、自然語義聯(lián)想。通過場景完善產(chǎn)品,再由產(chǎn)品鎖定更加精確的市場,進一步打磨技術(shù),這樣就形成了閉環(huán),智能語音交互才得以順利落地。
Siri與Alexa的區(qū)別,也映射了目前涉足AI產(chǎn)業(yè)的企業(yè)表現(xiàn)的模式。如蘋果一樣,只把AI當(dāng)作已有產(chǎn)品系列的附加功能,就會局限在產(chǎn)品本身的應(yīng)用場景,結(jié)果“文不對題”,閉環(huán)無法形成;只有把場景和AI當(dāng)成兩個獨立端點,拿產(chǎn)品當(dāng)作銜接的紐帶,才能得到螺旋上升的良性循環(huán)。
三、原點
“我們究竟需要怎樣的語音交互?”
或許這才是“Siri跌倒”的真正原點,也是“Siri們”共同的問題。至于答案,可以從兩個視野來尋找:現(xiàn)在,未來。
從現(xiàn)在的視野看,語音交互并不是大多數(shù)人的剛需。既有的工作、生活方式中,個人的問題自己解決,團體的問題溝通解決,只要信息是暢通的,不存在使用人工智能充當(dāng)媒介的必要。
然而,以“信息暢通”作為前提,已經(jīng)劃出了存在痛點的受眾:信息不暢通的特殊人群。
小孩、老人、殘障人士,都是信息受阻的一方,在處理問題時存在障礙。克服這種障礙,人們通常會想到一個職業(yè):保姆。而智能語音交互,恰恰是保姆的最佳替代。充分利用AI的信息處理能力,搭配特定機械結(jié)構(gòu),為存在重度需求的用戶提供生活輔助;或者僅僅以音箱的形式出現(xiàn),陪伴需求較輕的受眾,提供陪伴、解答、硬件遠(yuǎn)控等服務(wù)。在與特殊人群相關(guān)的應(yīng)用場景中,智能語音交互的出現(xiàn)無異于一場變革。
將視野轉(zhuǎn)向未來,也許會看到一片迷茫,但參考過去發(fā)生過的種種巨變,也可以猜想到智能交互帶來的震蕩。從信息流通的角度出發(fā),智能語音交互代表了更快的傳播速度。這和由牘到紙、由馬到車、由2G到5G是一樣的道理。
電影《Her》描繪了一個語音交互高度成熟的時代。片中人物的辦公完全脫離了紙筆,也脫離了我們目前使用的鍵鼠,只需要人坐在電腦屏幕前,口述自己的想法就可以了。不同于簡單的語音轉(zhuǎn)文字,智能語音助手會通過使用者的語氣、神情、語言內(nèi)容等,判斷一個語句是內(nèi)容的一部分還是一條指令。當(dāng)你說“幫我刪掉上一句”,上一句文本就會清除;當(dāng)你說“存?zhèn)€草稿”,文本就會進入草稿箱。
如果有一天,智能語音交互技術(shù)真的發(fā)展到了如此高度,那么可想而知,工作的效率將會提高不止百倍;甚至連工作場景這一概念都會消失不見,只要我們正通過耳機或是更先進的設(shè)備與語音助手保持聯(lián)系,哪怕是躺在床上,我們也能輕松地處理文件、撰寫策劃。
Siri的創(chuàng)始人,諾曼.威納爾斯基曾認(rèn)為,改變?nèi)祟愇磥淼娜笠厥?strong>虛擬助理、人工智能機器人助理、增強現(xiàn)實,它們分別對應(yīng)著信息世界、物理世界和二者之間的接口。很顯然,智能語音交互同時具備這三個要素。在看不到的地方,語音助手進行信息處理;在看得見的地方,它呈現(xiàn)處理的結(jié)果并收集反饋;而它本身,正是那個接口。
眼下的Siri雖已落后,但在大勢所趨下,也絕不會成為棄子。最近幾年,蘋果大肆收購AI公司,也表現(xiàn)出了重心轉(zhuǎn)移的信號。不難想象,接下來的幾個十年里,智能語音交互將成為幾家互聯(lián)網(wǎng)科技巨頭鏖戰(zhàn)之地,這種競爭帶來的正反饋,讓語音交互開始三點成面。
作者:劉思璇,編輯:桑明強;公眾號:新眸
本文由 @新眸 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
為什么所有的語音助手都有懟人的功能,頭疼。