一文讀懂智能助理的前世今生

1 評論 17465 瀏覽 52 收藏 35 分鐘

本文從智能助理的基本邏輯出發(fā),詳細分析了國內(nèi)外主要智能助理亞馬遜ALEXA、Google Assistant、蘋果Siri、微軟Cortana、百度度秘、騰訊叮當(dāng)、天貓精靈和阿里小蜜的發(fā)展歷史和主要功能,并給出自己對微軟小娜、蘋果Siri、百度度秘、騰訊叮當(dāng)?shù)捏w驗和分析預(yù)測。

隨著人工智能行業(yè)的發(fā)展,智能個人助理作為人工智能系統(tǒng)應(yīng)用相對成熟的領(lǐng)域也慢慢被大眾熟知。

智能助理可以理解為利用AI技術(shù)通過統(tǒng)一的對話交互界面來一站式給用戶提供需要的信息和服務(wù)。

目前蘋果、谷歌、微軟、亞馬遜已投入大量資源,積極研發(fā)并推出了Siri、Google Assistant、Alexa、Cortana等具有代表性的智能助理。

而國內(nèi)互聯(lián)網(wǎng)三大巨頭BAT也通過組建實驗室、招募AI高端人才等方式緊鑼密鼓地發(fā)布了百度度秘、阿里小蜜、騰訊叮當(dāng)?shù)龋D從智能助理的場景切入,完成在未來人工智能市場的布局。

一、智能助理基本邏輯

智能助理也可以看作是任務(wù)導(dǎo)向的chatbot,實現(xiàn)邏輯與chatbot相似,但是多了業(yè)務(wù)處理的流程,智能助理會根據(jù)對話管理返回的結(jié)果進行相關(guān)業(yè)務(wù)的處理。

一個包括語音交互的chatbot的架構(gòu)如下圖所示:

一般chatbot由語音識別(ASR)、語音合成(TTS)、自然語言理解(NLU)、對話管理(DM)、自然語言生成(NLG)幾個模塊組成,其中:

  • 語音識別:完成語音到文本的轉(zhuǎn)換,將用戶說話的聲音轉(zhuǎn)化為語音。
  • 自然語言理解:完成對文本的語義解析,提取關(guān)鍵信息,進行意圖識別與實體識別。
  • 對話管理:負責(zé)對話狀態(tài)維護、數(shù)據(jù)庫查詢、上下文管理等。
  • 自然語言生成:生成相應(yīng)的自然語言文本。
  • 語音合成:將生成的文本轉(zhuǎn)換為語音。

通常智能助理一個完整的交互流程是這樣的:

首先:音頻被記錄在設(shè)備上,經(jīng)過壓縮傳輸?shù)皆贫?。通常會采用降噪算法來記錄音頻,以便云端“大腦”更容易理解用戶的命令。然后使用“語音到文本”平臺將音頻轉(zhuǎn)換成文本命令。 通過指定的頻率對模擬信號進行采樣,將模擬聲波轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù),分析數(shù)字?jǐn)?shù)據(jù)以確定音素的出現(xiàn)位置。 一旦識別出音素,就使用算法來確定對應(yīng)的文本。

然后:使用自然語言理解技術(shù)來處理文本,首先使用詞性標(biāo)注來確定哪些詞是形容詞、動詞和名詞等,然后將這種標(biāo)記與統(tǒng)計機器學(xué)習(xí)模型相結(jié)合起來,推斷句子的含義。

最后:進入對話管理模塊,確認用戶提供的信息是否完整,否則進行多輪對話直至得到所需全部信息。根據(jù)得到的信息進行相應(yīng)的業(yè)務(wù)處理,執(zhí)行命令。同時將結(jié)果生成自然語言文本,并由語音合成模塊將生成文本轉(zhuǎn)換為語音。在這些模塊中,對話管理(DM)模塊的首要任務(wù)是要負責(zé)管理整個對話的流程。

通過對上下文的維護和解析,對話管理模塊要決定用戶提供的意圖是否明確,以及實體槽的信息是否足夠進行數(shù)據(jù)庫查詢或開始履行相應(yīng)的任務(wù)。

當(dāng)對話管理模塊認為用戶提供的信息不全或者模棱兩可時,就要維護一個多輪對話的語境,不斷引導(dǎo)式地去詢問用戶以得到更多的信息,或者提供不同的可能選項讓用戶選擇。

對話管理模塊要存儲和維護當(dāng)前對話的狀態(tài)、用戶的歷史行為、系統(tǒng)的歷史行為、知識庫中的可能結(jié)果等。當(dāng)認為已經(jīng)清楚得到了全部需要的信息后,對話管理模塊就要將用戶的查詢變成相應(yīng)的數(shù)據(jù)庫查詢語句去知識庫(如知識圖譜)中查詢相應(yīng)資料,或者實現(xiàn)和完成相應(yīng)的任務(wù)(如購物下單,或是類似Siri撥打xx的電話,或是智能家居去拉起窗簾等)。

實際實現(xiàn)中,對話管理模塊因為肩負著大量雜活的任務(wù),是跟使用需求強綁定的,大部分使用規(guī)則系統(tǒng),實現(xiàn)和維護都比較繁瑣。

規(guī)則的描述主要基于正則表達式或者類似正則表達式的pattern,用戶的問題匹配到這樣的pattern上,從而取得答案結(jié)果。

使用規(guī)則的好處是準(zhǔn)確率高,但是缺點也很明顯:用戶的句式千變?nèi)f化,規(guī)則只能覆蓋比較少的部分。

而越寫越多的規(guī)則也極其難維護,常常有可能會發(fā)生互相矛盾的規(guī)則,而往往一個業(yè)務(wù)邏輯的改動就要牽一發(fā)而動全身。另一個方法是維護一個龐大的問答數(shù)據(jù)庫,對用戶的問題通過計算句子之間的相似度來尋找數(shù)據(jù)庫中已有的最相近的問題來給出相應(yīng)答案。

目前任務(wù)導(dǎo)向chatbot也在逐漸使用基于深度學(xué)習(xí)的端到端來實現(xiàn)架構(gòu)

簡要來說就是將用戶輸入的內(nèi)容直接映射到系統(tǒng)的回答上,但是這種方式也存在需要大量的訓(xùn)練數(shù)據(jù)的問題,還不能完全取代傳統(tǒng)規(guī)則系統(tǒng)。

智能助理發(fā)展至今也遇到一些瓶頸問題,人腦畢竟十分復(fù)雜,用戶問出的問題有時即使是人也需要結(jié)合多年生活經(jīng)驗和知識才能理解,所以這些問題對智能助理來說意圖理解難度很高,知識復(fù)雜度也比較高。所以現(xiàn)在不少公司的思路是做垂直領(lǐng)域的智能助理,場景比較小,語料庫、語義相對有限,對話容易收斂。

了解了智能助理的基本實現(xiàn)邏輯之后我們來看下目前比較主流的智能助理產(chǎn)品。

二、亞馬遜ALEXA

亞馬遜于2014年推出智能音箱Echo,主要功能集中在語音購物和對智能家居的控制上。隨著Echo成為家庭的交互入口,其搭載的“大腦”Alexa智能語音助手也開始遍地開花。

通過亞馬遜Alexa與智能家居設(shè)備的連接,用戶可以輕松控制智能家居設(shè)備,如開關(guān)燈、開關(guān)窗簾、開關(guān)電視等。Alexa還可以通過多個信息源播放流媒體音樂和閱讀新聞,提供天氣、交通等信息,以及通過語音在Amazon Prime會員服務(wù)上購物,甚至還可以預(yù)訂披薩。

2015年6月,亞馬遜宣布將Alexa開放給第三方開發(fā)者,發(fā)布了 Alexa Skills Kit(ASK)和Alexa Voice Service (AVS)兩套工具包,越來越多非亞馬遜產(chǎn)品設(shè)備也開始支持Alexa了。

強大的開放性加上全面陣線的拉開,Alexa逐漸取得先發(fā)入場優(yōu)勢。

目前Alexa已經(jīng)可以支持亞馬遜語音設(shè)備(Echo、Echo Dot、Tap)和Fire TV機頂盒,亞馬遜正在嘗試讓Alexa支持其他可連接設(shè)備,比如鬧鐘和寵物喂食器。不過Alexa目前在國內(nèi)還不可用,必須“科學(xué)”上網(wǎng)才可以使用Alexa的服務(wù)。

對于智能音箱用戶而言,與音箱中語音助手的每一句對話都需要通過重復(fù)使用喚醒詞才能實現(xiàn),無法與之進行一場正常的,具備連續(xù)性的對話,在感覺上極不自然。

Alexa此前就為所有英文Alexa用戶推出Follow Up Mode,當(dāng)你發(fā)出一個指令后,Alexa將會繼續(xù)收聽接下來的指令,你可以進行連續(xù)的指令,不需要重復(fù)呼叫“Alexa”來喚醒它。用戶可以通過 Cancel 、Go To Sleep 這樣的指令主動終止對話,或者Alexa在檢測到用戶停止說話之后自動終止對話。

不過目前Alexa主要在智能家居上發(fā)力,因為亞馬遜沒有自己的智能手機平臺,所以目前還沒有實現(xiàn)智能家居控制和智能手機的整合。

華為也于今年8月底發(fā)布了一款搭載Alexa的智能音箱AI Cube,這款產(chǎn)品僅在海外銷售,Alexa在全球智能家居市場的影響力也可見一斑。

三、Google Assistant

2016年5月,谷歌重磅發(fā)布了全新語音智能助手Google Assistant。

背靠Google十余年的努力,GoogleAssistant利用了大數(shù)據(jù)、機器學(xué)習(xí)、自然語義分析等一系列技術(shù),能夠在不斷對話之中為用戶解決問題,而不像之前那樣只能用簡單的提問和回答。

在技術(shù)強化之外,GoogleAssistant的產(chǎn)品邏輯也在不斷進化。通過讓視覺、語音、文字等多個人機交互方式的無縫組合,實現(xiàn)更積極地對話,以及更個性化的推薦。

Google Assistant從某種角度可以說是Google Now的進化版,比Google Now增加了雙向?qū)υ?,且對一些功能進行了優(yōu)化。

作為Google在AI方面的核心之一,目前Google已經(jīng)幾乎把所有資源和能力都傾向Google Assistant,力圖用Google Assistant來把整個市場格局鋪開。

今年5月份舉辦的谷歌I/O大會谷歌CEO Sundar Pichai宣布谷歌助手已經(jīng)登陸5億臺設(shè)備,將于今年底支持30種語言,80多個國家可用。

此外,Google Assistant還在積極向外部合作進行拓展,還與70多家智能家居廠商達成了合作,呈現(xiàn)出更加包容的開放性。

Google Assistant今年在人機交互的智能性上做出了非常大的突破。

5月份舉辦的谷歌I/O大會谷歌 CEO Pichai現(xiàn)場展示了升級后的Google Assistant新能力,包括支持自動分解對話,并進行多重回復(fù)。也就是說:當(dāng)用戶一句話里面問了兩個問題,谷歌助手會分開回答,同時人聲發(fā)音更加自然流暢。

另一項重磅功能便是Google Assistant的Google Duplex,可以代打預(yù)約電話,幫助用戶點外賣、查路線、預(yù)訂理發(fā)店、預(yù)訂飯店。通過與Google Assistant對話,告訴它你想要預(yù)定什么店,什么時間和多少人,Google Assistant便會直接撥打電話給這家店,并用人的口語和發(fā)音,和對方聊天,確定好預(yù)約信息。整個演示過程中Google Assistant表現(xiàn)得非常接近真人,不知情的商家直到電話結(jié)束都沒有意識到自己在和 AI 對話。

另外,Google已于今年6月21日正式宣布Continued Conversation時代的到來。

與Alexa的follow up模式類似,連續(xù)對話功能使得用戶可以與 Google Assistant 進行更加自然的會話,而無需在一場對話中多次重復(fù) Hey Google。開啟該功能之后,只需用 Hey Google 或者 OK Google 喚起一次Google Assistant,就可以與之進行連續(xù)對話(買東西、設(shè)置鬧鈴、查天氣等)。

用戶可以通過 Thank You 或者 Stop 主動終止對話,或者 Google Assistant 在檢測到用戶停止說話之后自動終止對話。

當(dāng)然,在終止對話之前,Google Assistant 會等待足夠的時間來回應(yīng)用戶。目前該功能僅支持在 Google Home、Google Home Max 和 Google Home Mini 三款設(shè)備,而搭載 Google Assistant 的智能手機、智能電視等設(shè)備暫時得不到支持。另外,谷歌助手的連續(xù)對話功能與Alexa的follow up模式同樣只支持英語。

此外,Google Assistant從今年9月起就已經(jīng)可以支持雙語無縫切換識別。

當(dāng)用戶混用兩種語言向Google Assistant提出問題時,利用深度神經(jīng)網(wǎng)絡(luò)開發(fā)口語識別(LangID)技術(shù),谷歌助手都能夠識別出來,并且做出回應(yīng),而這只需用戶設(shè)置好兩種語言即可。

谷歌近年來在 AI 領(lǐng)域積累了大量的領(lǐng)先優(yōu)勢,Google Assistant作為其在AI方面的核心之一,已經(jīng)取得了相當(dāng)不俗的成績。

四、蘋果Siri

2011 年,在 iPhone 4s 面世的當(dāng)天,蘋果 Siri 也以智能語音助手的身份初次正式亮相,并成為當(dāng)時發(fā)布會上最大的亮點。

它是蘋果在iPhone、iPad等產(chǎn)品中使用的一項智能語音控制系統(tǒng),目前已經(jīng)可以支持Apple TV和Apple Watch。

通過Siri,用戶可以輕松的實現(xiàn)設(shè)置鬧鐘、推薦本地商戶、進行路線規(guī)劃、播放音樂、讀發(fā)短信、安排日程、定時提醒、獲取資訊、搜索資料、實時翻譯等功能,Siri還通過用戶的行為習(xí)慣,前瞻性地向用戶推薦需要執(zhí)行的行為等。

Siri其實是語音助手領(lǐng)域里起步比較早的應(yīng)用,是大眾認知里熟悉度最高的個人智能助理,也使大眾第一次對智能助手的概念有了認知,“調(diào)戲”Siri也曾是風(fēng)靡一時的娛樂項目。

但是在過去的幾年時間里,它的智能程度顯然沒有得到較大提升,現(xiàn)在仍然還是在吃老本的階段。

Siri目前還未完全開放Sirikit給開發(fā)者,跟第三方應(yīng)用整合的進度也十分緩慢。

Siri曾經(jīng)作為智能助手的先鋒如今地位卻有些尷尬,究其原因,與Siri團隊的動蕩以及蘋果對Siri的規(guī)劃頻繁變動分不開關(guān)系。

五、微軟Cortana

2014年2月,微軟公司推出了自己的語音助手小娜(Cortana),并嵌入安裝Windows操作系統(tǒng)的計算機和手機中。

它是一款基于語音和文本的虛擬助手,目前已經(jīng)可以支持Windows、iOS、以及Android系統(tǒng)。借助微軟自身深厚的技術(shù)功底,Cortana實現(xiàn)了對語音的較高識別率和與系統(tǒng)功能的深度集成,給用戶帶來了不少便利。

Cortana可以處理事務(wù)提醒和日常預(yù)約,設(shè)置鬧鐘,同時它還能啟動Bing(必應(yīng))搜索引擎獲取體育,天氣和其他信息。

小娜還會對用戶的習(xí)慣和喜好進行學(xué)習(xí),在 Cortana與用戶對話時,它并不是簡單地基于存儲式的問答,而是同時記錄下用戶的行為和使用習(xí)慣,利用云計算、搜索引擎和非結(jié)構(gòu)化數(shù)據(jù)分析,讀取和學(xué)習(xí)包括手機中的文本文件、電子郵件、圖片、視頻等數(shù)據(jù),來理解用戶的語義和語境,從而實現(xiàn)人機智能交互。

Cortana相比于強調(diào)任務(wù)和效率,更注重它與用戶之間的情感連接和親密關(guān)系,隨著Cortana越來越了解用戶的行為習(xí)慣,它可以做出更加個性化的的智能推薦。

2016年12月,微軟在舊金山宣布,把Cortana開放給第三方硬件公司,使其可以集成至音響、汽車等多種硬件。

今年8月,微軟Cortana和亞馬遜Alexa正式結(jié)盟,推出了融合后的服務(wù)。一個微軟Cortana的用戶,可以通過相關(guān)的語音指令直接在亞馬遜網(wǎng)站進行購物。

另外,亞馬遜Echo智能音箱的用戶,也能夠通過微軟Cortana的幫助,回復(fù)Windows中的電子郵件,或是設(shè)置日程提醒等。融合語音助手的服務(wù)首先作為公眾預(yù)覽版對美國用戶發(fā)布。

其中,亞馬遜Echo音箱的用戶能夠通過Alexa獲取Cortana的服務(wù),另外Windows10個人電腦用戶以及三星電子旗下哈曼國際公司Kardon Invoke智能音箱的用戶,也能夠在Cortana中獲得Alexa服務(wù)。

目前在產(chǎn)品實用性和用戶體驗這個維度上,Cortana還是落后于谷歌助手和亞馬遜Alexa。在和第三方硬件產(chǎn)品和互聯(lián)網(wǎng)服務(wù)的整合方面,微軟Cortana更是明顯落后于谷歌和亞馬遜。

六、百度度秘

度秘是李彥宏在2015年9月8日百度世界大會上推出的對話式人工智能秘書。

度秘基于DuerOS對話式人工智能系統(tǒng),用戶可以使用文字、圖片或者語音與百度機器人進行交流溝通,度秘通過語音識別、自然語言處理和圖像識別可以在對話中清晰的理解用戶的多種需求,進而在廣泛索引真實世界的服務(wù)和信息的基礎(chǔ)上,為用戶提供各種優(yōu)質(zhì)服務(wù)。

依托百度搜索能力、百度地圖、百度糯米等O2O類的服務(wù),度秘可以覆蓋用戶衣、食、住、行、玩各方面的需求和推薦,擴展了用戶對于服務(wù)的體驗寬度和深度,也是每個商家不可錯過的新入口和新商機。

此外,目前DuerOS已經(jīng)可以提供為第三方接入的Bots Platform,能夠賦能于手機、智能家居、可穿戴設(shè)備以及車載等多個場景,搭載DuerOS落地的主控設(shè)備也超過了80余款,不乏聯(lián)想、美的、海爾、小米等知名企業(yè),設(shè)備激活數(shù)量已經(jīng)突破5000萬。

百度現(xiàn)在的戰(zhàn)略已經(jīng)是“all in?AI ”,同樣是做搜索引擎發(fā)家,百度與谷歌因為中美兩國的互聯(lián)網(wǎng)環(huán)境不同,在AI領(lǐng)域的布局思路也不盡相同。

谷歌依托自己自身的系統(tǒng),力圖在已有生態(tài)上嵌入AI服務(wù)。

而百度因為缺少系統(tǒng)級入口,更多的采用從服務(wù)和場景的角度構(gòu)建生態(tài)的思路,利用AI撬開新生態(tài),更側(cè)重于“連接服務(wù)”。

在國內(nèi)市場,團購、O2O、新零售、共享經(jīng)濟等已經(jīng)高度發(fā)達,用戶更需要能夠提供無感服務(wù)的AI,只需要一個指令,智能助手就可以幫助我們訂餐、購物、打車、閱讀新聞等。百度便是基于DuerOS給用戶提供美食、電影、外賣、酒店、購物、打車、保潔、旅游、充值等多種生活O2O服務(wù),憑借簡單的數(shù)據(jù)交換就可以做到。

在這個意義上,谷歌助手的Google Duplex功能雖然炫酷,但也僅僅適用于多數(shù)服務(wù)無法直接通過網(wǎng)上預(yù)約的美國市場。

七、騰訊叮當(dāng)

2017年4月,騰訊推出智能語音助手“騰訊叮當(dāng)”,它基于自然語言理解和海量的語料標(biāo)注數(shù)據(jù),整合了信息服務(wù)、內(nèi)容服務(wù)、生活服務(wù)和各種硬件的連接服務(wù),覆蓋新聞、體育賽事、票務(wù)、快遞、音樂、股票、文學(xué)、LBS的附近資源等領(lǐng)域,功能與亞馬遜Alexa相似,是一款基于騰訊技術(shù)生態(tài)和內(nèi)容生態(tài)迅速發(fā)力的產(chǎn)品,可以提供智能助手產(chǎn)品形態(tài)和平臺級的業(yè)務(wù)支持,連接廣泛的智能化需求和海量的服務(wù)資源。

騰訊叮當(dāng)可以說是騰訊在人工智能領(lǐng)域的探路石。

目前叮當(dāng)已經(jīng)可以提供API和SDK接入方式給廠商,類似智能穿戴、智能音箱、智能車載、智能電視以及各類形態(tài)的機器人,都可以搭載騰訊叮當(dāng)AI助手。

八、阿里天貓精靈和阿里小蜜

阿里在智能助理這個領(lǐng)域有兩個比較知名的產(chǎn)品,一個是智能音箱天貓精靈,另一個則是主打購物這個細分場景的阿里小蜜。

天貓精靈是阿里巴巴AI labs于2017年7月5日發(fā)布的AI智能產(chǎn)品品牌,當(dāng)天同步發(fā)布了天貓精靈首款硬件產(chǎn)品——AI智能語音終端設(shè)備天貓精靈X1。

天貓精靈X1內(nèi)置AliGenie操作系統(tǒng),AliGenie依賴云端,能夠聽懂中文普通話語音指令,目前可實現(xiàn)智能家居控制、語音購物、手機充值、叫外賣、音頻音樂播放等功能。

天貓精靈整合了市場中的內(nèi)容資源、音頻資源、技術(shù)資源以及自身的平臺資源。接入的互聯(lián)網(wǎng)服務(wù)內(nèi)容多為阿里生態(tài)自身內(nèi)容,但依靠阿里自身的布局,服務(wù)數(shù)量很客觀。家居控制方面,支持阿里小智以及bordlink等品牌商的接入。

AliGenie開發(fā)者平臺是主要面向四種類型的開發(fā)者,包括內(nèi)容開發(fā)者、應(yīng)用開發(fā)者、智能家居開發(fā)商和硬件生產(chǎn)商。開發(fā)者既可以創(chuàng)建技能,為更多的語音用戶提供服務(wù),也可以將自己的設(shè)備接入云端服務(wù),獲取語音交互能力。

在智能助手這個場景下,由于不同情境下語言的意義可以多種多樣,有時意圖無法確認,所以不少產(chǎn)品的思路是限定談話的領(lǐng)域,從寬度發(fā)展變?yōu)樯疃劝l(fā)展,也就是做更加細分的垂直領(lǐng)域的智能助理。

具體來說就是在一個細分的場景下,用戶產(chǎn)生大量相似的疑問和需求,目標(biāo)明確或半明確且可能需要引導(dǎo),而智能助理具有領(lǐng)域?qū)I(yè)知識(知識圖譜)與豐富問答經(jīng)驗(問答歷史數(shù)據(jù)),可以在幾分鐘內(nèi)解決用戶問題和需求,智能助理解決不掉的,再扔給人工客服。

很多場景可能最頻繁的前十個問題已經(jīng)能解決大部分用戶通用的問題,而智能助理的優(yōu)勢在于可以自動化獲取用戶畫像、快速讀取海量相關(guān)知識庫、通過多輪對話快速給出針對用戶需求的個性化答案。阿里小蜜就是這樣一款著重打造在購物這個細分場景下的智能助理。

阿里小蜜是阿里在2015年7月發(fā)布的一款人工智能購物助理虛擬機器人,使用入口在手機淘寶客戶端【我的淘寶】,基于阿里海量消費和商家數(shù)據(jù)來結(jié)合線上、線下的生活場景需求,以智能+人工的模式提供智能導(dǎo)購、服務(wù)、助理的擬人交互業(yè)務(wù)體驗。

機器通過智能化技術(shù)處理掉絕大部分的簡單、重復(fù)等可識別處理的問題,對于解決不了的問題則流向人工。

目前阿里小蜜可以在跨終端、多場景領(lǐng)域支持多輪交互、多模式交互(文本、語音和圖像)和問題推薦預(yù)測,支持多模型識別客戶意圖,通過結(jié)合上下文語義理解來給用戶推薦想要購買的產(chǎn)品,以及解決淘寶和支付寶相關(guān)的服務(wù)問題。

在這種意義下,阿里小蜜還是側(cè)重定義為淘寶或支付寶的輔助功能,而不是獨立作為智能助理來產(chǎn)出價值。

九、智能助理體驗分析

對人工智能領(lǐng)域的頭部公司而言,AI仍然是未知且需要不斷探索的。不同的公司文化,不同的技術(shù)體系,不同的業(yè)務(wù)結(jié)構(gòu),不同的產(chǎn)業(yè)背景等等,決定了在人工智能布局上的差異,除了時間上的先后順序,還有對AI場景理解的不同。

作為智能助手領(lǐng)域的兩大巨頭,Alexa和Google assistant都在英語國家取得了不俗的成績,但因為智能助手產(chǎn)品強依賴于語音識別和語義理解,中文可以說是他們進入中國市場的一個強壁壘,因為中文是全世界最復(fù)雜的語言之一,沒有對中文長期的研究和數(shù)據(jù)積累,很難達到用戶的預(yù)期。

本次主要分析四款面向國內(nèi)用戶,支持智能手機終端,主打個人智能助手場景的產(chǎn)品:微軟小娜、蘋果Siri、百度度秘、騰訊叮當(dāng)。主要側(cè)重于分析智能性上,因此不對APP的結(jié)構(gòu)層、框架層和表現(xiàn)層進行分析。

首先直接來看詢問常見問題時四款智能助手的表現(xiàn):

1. 微軟小娜

體驗環(huán)境與版本:iOS11.4.1? v2.6.17

先來看官方幫助所提供的功能導(dǎo)引:

微軟小娜支持文字或語音輸入,但是只有少部分問答支持語音輸入時同樣輸出語音。在較為安靜的環(huán)境下語音識別基本沒有差錯。

小娜提供的服務(wù)和內(nèi)容基本都是基于必應(yīng)系列產(chǎn)品,強依賴必應(yīng)搜索引擎,很多時候無法直接呈現(xiàn)用戶需要的服務(wù),而只是單純將在必應(yīng)里的搜索結(jié)果展示給用戶。

小娜在用戶一次性問兩個相關(guān)問題時可以拆分回答。

例如詢問“今天天氣怎么樣我需要帶傘嗎”,小娜會回答“我覺得沒有這個必要,今天的天氣是晴轉(zhuǎn)多云”。

2. 蘋果Siri

體驗版本:iOS11.4.1

首先來看Siri的官方導(dǎo)引:

Siri主要以語音交互為主,輔助功能里可以開啟文本輸入。在較為安靜的環(huán)境下語音識別基本沒有差錯。語音合成方面中文發(fā)音較之英文發(fā)音要生硬刻板很多。

Siri團隊作為美國本土的團隊,在英文上的語義理解也做的要比中文好很多,而且語言設(shè)置為英文時可提供的服務(wù)也更多。

舉個例子,用中文詢問“24的平方是多少”,Siri只會給出搜索結(jié)果,但是用英文詢問“the square of 24”就會直接給出答案。

同樣的,用中文詢問“π的平方是多少”,會識別為“派的平方是多少”,同時只能提供搜索結(jié)果。而用英文詢問則會識別“the square of pi”,并直接給出答案。

3. 百度度秘

體驗環(huán)境與版本:iOS11.4.1? v3.1.2

同樣先來看看度秘的官方指引:

雖然李彥宏早前多次為度秘站臺,但是在app store里度秘最新上傳的版本已經(jīng)是1年前了,而且很明顯這個最新的版本也并沒有適配iPhone x,可以推斷目前在百度的AI版圖里度秘并不是很重要的一款產(chǎn)品。

使用時,在度秘獲取了訪問通訊錄權(quán)限的情況下測試“打電話給xx”時(xx為通訊錄中的聯(lián)系人),度秘語音識別準(zhǔn)確但反饋沒有找到該聯(lián)系人,只有在直接說打電話給某個號碼時才可以撥出電話。

度秘在用戶一次性問兩個相關(guān)問題時不可以拆分回答。例如詢問“今天天氣怎么樣我需要帶傘嗎”,度秘的回答與“今天天氣怎么樣”的回答相同。

4. 騰訊叮當(dāng)

體驗環(huán)境與版本:iOS11.4.1? v1.3.2

騰訊叮當(dāng)?shù)墓俜綆椭敢缦拢?/p>

騰訊叮當(dāng)支持文本交互和語音交互,中文狀態(tài)下語音識別英文的能力較好,它的語音合成效果是四款產(chǎn)品里最自然流暢的,機械感很弱。

騰訊叮當(dāng)目前基本不支持對一些手機基本操作的控制,仔細研究就會發(fā)現(xiàn)它不需要獲取通訊錄權(quán)限,所以打電話發(fā)短信更無從談起,因為這款產(chǎn)品發(fā)布時間并不久,可提供的服務(wù)不多,兜底回答出現(xiàn)的概率也比其他產(chǎn)品要高一些。

十、小結(jié)

因為所面對的用戶群體不同,用戶使用習(xí)慣也有很大差別,中外AI頭部企業(yè)在智能助理這一領(lǐng)域發(fā)力方向也都不盡相同。

Google Assistant、Alexa等國外具有代表性的智能助理,它們不僅在AI芯片、自然語言處理、語音識別、機器學(xué)習(xí)、計算機視覺等技術(shù)方向上取得進展,而且在開放性和智能設(shè)備未來生態(tài)的布局上,搶占了先機。

而國內(nèi)BAT三家巨頭研發(fā)的智能助理,目前他們的服務(wù)既有重合之處,也有各自的側(cè)重與特色。

百度的度秘在資訊搜索和生活消費推薦上略勝一籌,騰訊叮當(dāng)基于海量數(shù)據(jù)和社交基因,它在泛娛樂上有著不小的優(yōu)勢,而阿里小蜜則在購物和商業(yè)鏈接上更有施展之地。

未來的智能助理將伴隨著智能生態(tài)系統(tǒng)的發(fā)展變得無處不在,而作為這個生態(tài)中的重要角色,智能助理將承擔(dān)起協(xié)調(diào)指揮這個生態(tài)的重任。這意味著,智能助理將成為新的商業(yè)匯聚點,也將引起新一輪的智能生態(tài)大洗牌。

 

本文由 @樊帆fan 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖由作者提供

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 厲害

    來自江蘇 回復(fù)