為何最成功的消費(fèi)級(jí)AI產(chǎn)品,是一家電商網(wǎng)站做出來的?

2 評(píng)論 5029 瀏覽 17 收藏 32 分鐘

Amazon更像一個(gè)電商而不是高科技的公司,那么為什么最成功的消費(fèi)級(jí)AI產(chǎn)品居然是從Amazon產(chǎn)生?

隨著亞馬遜的智能音箱Echo銷量逼近千萬,Alexa無疑成為了全球范圍內(nèi)截至目前最為成功的消費(fèi)級(jí)AI產(chǎn)品,也可謂是亞馬遜這家電商公司在人工智能領(lǐng)域一次的跨界奇跡,極大刺激國內(nèi)各個(gè)科技公司也紛紛進(jìn)入語音交互領(lǐng)域。根據(jù)內(nèi)部人士提供的數(shù)據(jù),包括阿里、百度、騰訊、華為、小米、聯(lián)想、海爾、科大訊飛等國內(nèi)已經(jīng)有超過200多家公司正在研發(fā)類似Echo的智能音箱。

但是,我們真的認(rèn)真琢磨過亞馬遜的Alexa嗎?或者我們真的了解評(píng)測過Echo嗎?盡管Amazon在這個(gè)領(lǐng)域持續(xù)投入了多年,但是Amazon一向?qū)τ赑R的宣傳審核嚴(yán)格,實(shí)際上國內(nèi)對于亞馬遜關(guān)于技術(shù)細(xì)節(jié)方面的思考,知之甚少。

最近EmTech Digital人工智能峰會(huì)上,MIT Technology總編輯 Jason Pontin 對話亞馬遜Alexa負(fù)責(zé)人 Toni Reid,透漏了一些Toni Reid關(guān)于消費(fèi)級(jí)語音交互系統(tǒng)的思考。Toni Reid經(jīng)歷了從 Alexa 從無到有的全過程,在這次談話中,Toni Reid也解釋了Alexa為什么不用屏幕以及多輪對話的原因。

Toni Reid認(rèn)為,語音是最簡單、最自然的交互方式,也是人類溝通最基本的方式。所以,Amazon在為Alexa設(shè)計(jì)硬件載體Echo的時(shí)候,并沒有為其加上屏幕。這種做法其實(shí)是增加了難度:用戶只能通過純語音來使用設(shè)備,而并沒有屏幕反饋?zhàn)鳛檩o助。當(dāng)然,Amazon也正在Fire TV和Kindle平板電腦等設(shè)備上嘗試部署Alexa,但這涉及Alexa比較大的改變。

Toni Reid更是堅(jiān)持認(rèn)為,當(dāng)用戶下達(dá)語音指令后,Alexa實(shí)際上只有一次機(jī)會(huì)去部署相應(yīng)的動(dòng)作,而不能去和用戶來來回回的多輪對話。一般而言只有兩次對話機(jī)會(huì),如果第三次對話還沒弄清用戶需求,就算徹底的失敗了。這樣的反復(fù)對話對用戶來說是很糟糕的體驗(yàn)。

這是兩個(gè)非常值得國內(nèi)用戶思考的點(diǎn),從這兩個(gè)點(diǎn)也可以展開來思考更多問題,我們期望國內(nèi)能夠做出超越Echo的產(chǎn)品,至少也要比肩Echo的銷量和影響力。

一、為什么是Amazon脫穎而出?

這是一個(gè)很奇怪的問題,確實(shí)Amazon更像一個(gè)電商而不是高科技的公司。實(shí)際上,Amazon在沒有談及Echo的銷量之前,Amazon也并沒有被產(chǎn)業(yè)和媒體關(guān)注,同時(shí)也沒有被歸類到人工智能公司。因?yàn)橄啾菺oogle、Microsoft、Apple、Facebook這類公司,甚至包括和國內(nèi)的百度、阿里和騰訊這些公司比較,Amazon實(shí)在也拿不出像樣的、同其他公司AI研究院一般提供的PPT,況且承擔(dān)重任的Lab 126還是一個(gè)依靠收購組建的大雜燴式的產(chǎn)品公司,更難堪一點(diǎn)的是,Echo一開始的項(xiàng)目優(yōu)先級(jí)也是最末的。為什么會(huì)是這樣一個(gè)情況?

這個(gè),有偶然,也有必然。若從科學(xué)實(shí)驗(yàn)的角度來看,偶然性確實(shí)很大,成功的實(shí)驗(yàn)往往都是那么偶爾的一個(gè)閃光,但是這個(gè)閃光卻也是亞馬遜長期投入的必然結(jié)果。

首先來看,Amazon的優(yōu)勢在于沒有太大的技術(shù)包袱,Amazon顯然對于成立研究院沒有太大興趣,正因?yàn)闆]有過多的歷史限制,才會(huì)讓產(chǎn)品和技術(shù)結(jié)合的更加緊密,而不至于讓產(chǎn)品思維被工程師所束縛。特別重要的是Amazon Echo切中的市場痛點(diǎn)是遠(yuǎn)場語音交互,這讓Google、Microsoft、Apple長期積累的近場語音交互優(yōu)勢幾乎沒有意義,顯然Alexa更懂用戶對于遠(yuǎn)場語音交互的需求。

其次來看,Amazon對于技術(shù)細(xì)節(jié)的耐心實(shí)際超越了Google、Microsoft這些AI巨頭,這里要把Apple拿出來,因?yàn)锳pple做產(chǎn)品的思路還是和Amazon比較一致的。Amazon和Apple顯然對于技術(shù)PR和論文都沒有多大興趣,但是對于產(chǎn)品和專利卻極其上心。從公司角度來看,PR和論文確實(shí)耗費(fèi)公司極大的精力,這兩者對于創(chuàng)業(yè)公司來說可能是提高知名度的重要方法,但是對于成熟公司,知識(shí)產(chǎn)權(quán)、產(chǎn)品和營銷能力顯然更加重要,而且這也決定了公司對于技術(shù)的耐心程度。

因?yàn)檫^多的PR和論文會(huì)讓研究人員忽略對于技術(shù)細(xì)節(jié)的把控,當(dāng)公司的技術(shù)人員動(dòng)不動(dòng)就談技術(shù)趨勢和架構(gòu)的時(shí)候,這家公司反而危險(xiǎn)了,那么請問誰來把控技術(shù)落地時(shí)候的無數(shù)個(gè)細(xì)節(jié)問題?沒有細(xì)節(jié)的持久打磨,試問哪個(gè)用戶會(huì)為此買單?當(dāng)掏出錢袋的那一刻,用戶的體驗(yàn)永遠(yuǎn)是第一位的。

最后來看,技術(shù)人員往往容易陷入科學(xué)幻想,總是喜歡做很多超前的事情。這在技術(shù)領(lǐng)域是必要的,但是不要讓工程師甚至科學(xué)家過多干涉產(chǎn)品定義也是非常重要的一個(gè)方面。市場上永遠(yuǎn)都是滿足當(dāng)前需求的產(chǎn)品才能獲得用戶,而不是你的技術(shù)多么高深,顯然Amazon更是輕裝上陣,靈活的產(chǎn)品思考是Echo定義的關(guān)鍵因素,這樣才能更容易懂得用戶。

二、語音交互技術(shù)到底成熟沒有?

這個(gè)問題之前,可以先回憶一下,我們平時(shí)能看到身邊多少人在用語音交互?事實(shí)上這很少,除了汽車導(dǎo)航的時(shí)候,可能大部分時(shí)候只是偶爾秀一下,而且還是對著手機(jī)喊話。這就說明了問題,語音交互其實(shí)根本就不成熟。

這就不對了,因?yàn)閹缀跛械腁I公司都在號(hào)稱語音識(shí)別已經(jīng)接近甚至超越人類了,不要信以為真,別說遠(yuǎn)場語音識(shí)別,就連近場語音識(shí)別也做不到。那些所謂的指標(biāo)都是論文指標(biāo),僅僅是在特定的測試集合下所測得結(jié)果,可以理解為想要怎樣的指標(biāo)幾乎都可以優(yōu)化出來。So What?這又有個(gè)啥子意義,因?yàn)槲覀內(nèi)祟悘膩聿皇菍?shí)驗(yàn)室的小白鼠,我們需要的不是實(shí)驗(yàn)環(huán)境下的技術(shù)應(yīng)用。

語音交互包括了語音識(shí)別和語義理解兩大部分。我們就從語音識(shí)別這點(diǎn)來看,僅僅這點(diǎn)還有很多很多的問題需要解決。語音交互的落地首先要解決的是真實(shí)場景下的語音識(shí)別,這就要求要考慮說話者與機(jī)器的距離,要讓說話者在屋子任何位置下的語音命令都能被機(jī)器識(shí)別。而這又牽扯到對噪聲、混響、回聲等干擾聲音的處理,這是光靠所謂深度學(xué)習(xí)是解決不了的。

顯然,所有AI相關(guān)技術(shù)的落地都會(huì)碰到場景的問題,而場景則是物理學(xué)的范疇,物理的進(jìn)展并沒有像AI頻繁的會(huì)議宣稱的那樣有飛躍式的進(jìn)步。但是不解決場景的物理問題,單靠計(jì)算機(jī)科學(xué)就大談人工智能改變?nèi)祟悶闀r(shí)過早了。玩笑一下,拔掉電源計(jì)算機(jī)還能工作不?

三、語音助手要不要屏幕的問題?

Toni Reid提到,Alexa為了讓用戶適應(yīng)語音交互的方式,特意去掉了屏幕。但是這不代表屏幕就不重要,雖然語音是最簡單、最自然的交互方式,但是我們80%的信息還是依靠視覺獲取,即便語音交互的時(shí)候我們也依賴很多肢體表達(dá)來確認(rèn)我們是否得到了有效反饋。

這一點(diǎn)在Echo還是做不到,至少這個(gè)階段來說,這是一個(gè)無奈的折衷選擇。其中有一個(gè)重要的點(diǎn)Toni Reid沒有提到,因?yàn)锳mazon并不想把Echo定義為一個(gè)音箱,而是一款全新的AI品類,但是創(chuàng)造一個(gè)新的品類也意味著巨大的風(fēng)險(xiǎn)。

所以Amazon選擇了穩(wěn)妥的從音箱品類進(jìn)行升級(jí),當(dāng)然蘋果也選擇了從耳機(jī)進(jìn)行升級(jí)。這就特別要注意,傳統(tǒng)品類升級(jí)的時(shí)候一定要避免與其他品類的沖突,比如假設(shè)給Echo加上屏幕,用戶會(huì)把這個(gè)品類看成音箱還是平板?我想Amazon更愿意用戶把Echo看作為音箱,即便他們非常不情愿。

事實(shí)上,國內(nèi)很多創(chuàng)業(yè)公司都在驗(yàn)證Amazon的眼光有多么獨(dú)到,因?yàn)槲覀円呀?jīng)看到太多配置屏幕的機(jī)器人和智能音箱,甚至還有不少耳機(jī)產(chǎn)品。其銷量為什么不好?為什么不換個(gè)角度想想,這種場景下,用戶買個(gè)iPad Mini是不是會(huì)是更好的選擇?

四、當(dāng)前階段用戶真的需要多輪對話?

Toni Reid的觀點(diǎn)很明確,Alexa暫時(shí)不需要多輪對話,因?yàn)檫@會(huì)讓早期用戶的體驗(yàn)更糟糕。筆者也堅(jiān)持這個(gè)觀點(diǎn),但是有幾點(diǎn)是必須補(bǔ)充的。

首先來看,現(xiàn)在的語音交互實(shí)際上都是語音控制,確實(shí)這個(gè)階段我們真的很難讓計(jì)算機(jī)理解人類語言。在這個(gè)前提下,真正的多輪對話實(shí)際上很難做到,當(dāng)前更多的是解決基于場景的搜索問題。當(dāng)不能真正理解用戶思想的時(shí)候,多出的對話若不能解決用戶的需求,反而是用戶極其反感的地方。簡單想想,真正使用一個(gè)產(chǎn)品的時(shí)候,面對著冷冰冰的機(jī)器,難道讓用戶和機(jī)器溝通要比和女朋友溝通還要費(fèi)勁嗎?抱歉,即便作為用戶,筆者也只是想要一個(gè)絕對聽從于我指令的音箱而已,聲智科技經(jīng)常會(huì)測試各個(gè)廠商的Demo,但凡偶爾喚不醒或者一句沒聽懂我就挺惱火的。

其次來看,我們怎么理解多輪對話?Toni Reid提到不希望Alexa問到第三遍,這實(shí)際上還不是一個(gè)多輪對話的問題,而是問答反饋的問題。也就是說,真正的多輪對話可能不需要,但是問答反饋還是必須得,我們知道Echo由于沒有了屏幕,先天丟失了用戶交互過程中的反饋途徑,這個(gè)時(shí)候語音的反饋就顯得比較重要。但是這是一個(gè)很大的坑,到底該如何把握這種問答反饋,既讓用戶快速獲取滿意的答案,又能在模糊的時(shí)候通過一次問答來解決用戶問題,我想這個(gè)方面真的需要仔細(xì)研究Echo,Echo的成功就是仔細(xì)思考和打磨了每個(gè)細(xì)節(jié)。

事實(shí)上,可以連續(xù)喚醒的單輪問答對話才是智能音箱的核心技術(shù)所在,簡單可以理解為智能音箱的喚醒是第一優(yōu)先級(jí)的,必須支持連續(xù)的無數(shù)次喚醒,做到有問必答,也就是說用戶可以隨時(shí)喚醒并且打斷其他對話直接喚醒,而且必須保障喚醒率和虛警率,虛警率太高顯然不行,這會(huì)讓設(shè)備總是莫名其妙自動(dòng)對話。當(dāng)然,聲智科技的這項(xiàng)技術(shù)當(dāng)前還主要針對大客戶定制,開發(fā)板暫時(shí)還不支持這項(xiàng)功能。

五、深度學(xué)習(xí)真解決了語音交互問題?

這個(gè)問題實(shí)在不好解釋了,引用微軟首席研究員劉鐵巖的一句話,順便也推薦感興趣的同學(xué)看看劉研究院所做的《人工智能的挑戰(zhàn)與機(jī)遇》演講,這給國內(nèi)火熱的人工智能潑了一盆冷水,但是我相信所有從事這個(gè)行業(yè)的技術(shù)人士都是有清晰認(rèn)識(shí)的。

“所謂深度學(xué)習(xí)實(shí)驗(yàn)室,就是一批會(huì)調(diào)參的人,沒有他們深度學(xué)習(xí)就沒那么好用。雖然是句玩笑,但是深度學(xué)習(xí)要調(diào)的東西確實(shí)太多了,比如說訓(xùn)練數(shù)據(jù)怎么來,怎么選,如果是分布式運(yùn)算怎么劃分,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)怎么設(shè)計(jì),10層、100層還是1000層,各層之間如何連接,模型更新的規(guī)則是什么,學(xué)習(xí)率怎么設(shè),如果是分布式運(yùn)算各個(gè)機(jī)器運(yùn)算出來的結(jié)果怎么聚合,怎么得到統(tǒng)一的模型,等等,太多需要調(diào)的東西,一個(gè)地方調(diào)不好,結(jié)果可能就大相徑庭。這就是為什么很多論文里的結(jié)果是不能重現(xiàn)的,不是說論文一定不對,但至少人家沒有把怎么調(diào)參告訴你,他只告訴了你模型長什么樣而已?!?/p>

那么,從上面幾個(gè)問題繼續(xù)引申,我們到底應(yīng)該怎么看待持續(xù)火熱的Alexa和Echo?國內(nèi)公司該是怎樣理解和思考人工智能,筆者拙見,也提幾點(diǎn)個(gè)人的看法和建議,期望AI能在理性的環(huán)境中成長。AI是未來的趨勢,創(chuàng)業(yè)者長期的事業(yè),絕對不是一蹴而就的事情。

1、AI最大的問題是不懂人腦機(jī)制

上面也提到了深度學(xué)習(xí)的問題,我們大量的工作其實(shí)就是工程師所做的事情,不斷調(diào)參優(yōu)化,這是一個(gè)持續(xù)優(yōu)化的過程,最終結(jié)果不可能是顛覆性的。因此,不能指望理論上所不能證明的事情,通過調(diào)優(yōu)就能實(shí)現(xiàn)。

所以AI最大的問題還是會(huì)歸結(jié)于最原始的哲學(xué)問題,人類的智慧是怎么來的? AI根本不懂人腦的機(jī)制,怎么超越人腦?這點(diǎn)就從筆者最熟悉的聲學(xué)來看,這個(gè)領(lǐng)域?yàn)樯洞蠹叶疾粣圻M(jìn)入,甚至本科都不開設(shè)這個(gè)專業(yè)?甚至聲智科技成立以前,很多大眾媒體同學(xué)都不知道還有個(gè)中科院聲學(xué)所。

因?yàn)槁晫W(xué)100多年沒有啥實(shí)質(zhì)性理論突破了,雖然在水聲領(lǐng)域我們國際上也很領(lǐng)先,但是和深度學(xué)習(xí)類似,我們也是在做大量實(shí)驗(yàn)和調(diào)優(yōu)的工作,這就很難產(chǎn)生顛覆性的貢獻(xiàn)。這么久沒有理論上的突破必然會(huì)導(dǎo)致公眾的遺忘,甚至再過百年都看不到諾貝獎(jiǎng)的希望,誰還來搞呢?畢竟學(xué)子年輕的時(shí)候都充滿了希望,但是怎么做到呢?

2、語音識(shí)別的最大瓶頸在于聲學(xué)

前面提到,語音識(shí)別最大的落地還是在場景之中,這涉及了語音交互用戶場景的變化,當(dāng)用戶從手機(jī)切換到類似Echo智能音箱或者機(jī)器人的時(shí)候,實(shí)際上麥克風(fēng)面臨的環(huán)境就完全變了,這就如同兩個(gè)人竊竊私語和大聲嘶喊的區(qū)別。

前幾年,語音交互應(yīng)用最為普遍的就是以Siri為代表的智能手機(jī),這個(gè)場景一般都是采用單麥克風(fēng)系統(tǒng)。單麥克風(fēng)系統(tǒng)可以在低噪聲、無混響、距離聲源很近的情況下獲得符合語音識(shí)別需求的聲音信號(hào)。但是,若聲源距離麥克風(fēng)距離較遠(yuǎn),并且真實(shí)環(huán)境存在大量的噪聲、多徑反射和混響,導(dǎo)致拾取信號(hào)的質(zhì)量下降,這會(huì)嚴(yán)重影響語音識(shí)別率。而且,單麥克風(fēng)接收的信號(hào),是由多個(gè)聲源和環(huán)境噪聲疊加的,很難實(shí)現(xiàn)各個(gè)聲源的分離。這樣就無法實(shí)現(xiàn)聲源定位和分離,這很重要,因?yàn)檫€有一類聲音的疊加并非噪聲,但是在語音識(shí)別中也要抑制,就是人聲的干擾,語音識(shí)別顯然不能同時(shí)識(shí)別兩個(gè)以上的聲音。

顯然,當(dāng)語音交互的場景過渡到以Echo、機(jī)器人或者汽車為主要場景的時(shí)候,單麥克風(fēng)的局限就凸顯出來。為了解決單麥克風(fēng)的這些局限性,利用麥克風(fēng)陣列進(jìn)行語音處理的方法應(yīng)時(shí)而生。麥克風(fēng)陣列由一組按一定幾何結(jié)構(gòu)(常用線形、環(huán)形)擺放的麥克風(fēng)組成,對采集的不同空間方向的聲音信號(hào)進(jìn)行空時(shí)處理,實(shí)現(xiàn)噪聲抑制、混響去除、人聲干擾抑制、聲源測向、聲源跟蹤、陣列增益等功能,進(jìn)而提高語音信號(hào)處理質(zhì)量,以提高真實(shí)環(huán)境下的語音識(shí)別率。

但是僅靠麥克風(fēng)陣列提供的這些技術(shù)還是不夠的,這只能解決部分遠(yuǎn)場化的問題。事實(shí)上,真實(shí)場景下我們需要更復(fù)雜的識(shí)別技術(shù),能不能不依賴于云端?能不能同時(shí)追蹤和識(shí)別多個(gè)人講話?能不能識(shí)別語調(diào)和情感?等等這些環(huán)節(jié),都是急需要解決的問題?而很多技術(shù)的瓶頸就在于聲學(xué)能否也有一個(gè)較大的突破。

3、語音助手核心在于場景和性格

語音助手包括了兩個(gè)大的技術(shù)環(huán)節(jié):語音識(shí)別(前端聲學(xué)+后端識(shí)別)和語義理解(+內(nèi)容聚合)。語音識(shí)別其實(shí)不涉及太多智能問題,僅僅只是AI的一個(gè)管道,智能的核心還是在于語義這個(gè)環(huán)節(jié)。語音識(shí)別和場景也密切相關(guān),不同的場景需要不同的模型適配,這才能保證其識(shí)別率。語義更是需要場景的輔助,畢竟圈子的語言還是有很大差異性的。如果不能邁過這個(gè)門檻,語音交互的效能就會(huì)極具降低,對用戶來說呈現(xiàn)不出來足夠的吸引力。

另外一個(gè)問題就是語音助手本身也要定義一個(gè)性格,即便是冷冰冰的問答控制,也要讓語音助手體現(xiàn)出個(gè)性來,這也包括語音合成的語調(diào)問題。比如蘋果Siri很調(diào)皮,微軟小冰很小色,亞馬遜Echo很熱心等等。當(dāng)然,這更多是AI產(chǎn)品經(jīng)理的任務(wù),現(xiàn)在這個(gè)領(lǐng)域AI產(chǎn)品人才也是奇缺。

4、好的產(chǎn)品并不要100分的技術(shù)

Amazon的Echo顯然不是百分的產(chǎn)品,其技術(shù)也遠(yuǎn)未成熟,但是這不妨礙Echo的熱銷,只要達(dá)到80分過了用戶心理預(yù)期的門檻,這就是一款好產(chǎn)品。蘋果的歷代產(chǎn)品也都是這個(gè)路徑走過來的。所以這就不要讓AI技術(shù)人員過多定義產(chǎn)品,機(jī)器人就是個(gè)不好的例子,總是不斷拔高用戶預(yù)期這非常不妙。產(chǎn)品滿足的是用戶需求,而不是研發(fā)人員自我炫酷的心態(tài)。更好的產(chǎn)品設(shè)計(jì)應(yīng)該是充分發(fā)揮技術(shù)的優(yōu)勢,而巧妙避過技術(shù)的缺陷。

比如麥克風(fēng)陣列,Amazon采用這項(xiàng)技術(shù)核心就是要解決遠(yuǎn)場語音識(shí)別問題,而且這也是當(dāng)前階段唯一有效的技術(shù)方法。AI產(chǎn)品經(jīng)理更需要了解麥克風(fēng)陣列技術(shù)的優(yōu)勢和缺陷,將其融合到產(chǎn)品之中,而不是浪費(fèi)很大精力鉆研麥克風(fēng)陣列與深度學(xué)習(xí)之間的關(guān)系,甚至總是在琢磨如何才能替代麥克風(fēng)陣列,這就本末倒置,應(yīng)該讓專業(yè)的公司做更專業(yè)的事情。

5、沒有歷史包袱的產(chǎn)品更易成功

單從Amazon在AI領(lǐng)域崛起來看,國內(nèi)的消費(fèi)級(jí)AI戰(zhàn)場鹿死誰手還真不一定。領(lǐng)先布局的BAT不一定能突圍,緊跟其后的小米、華為、聯(lián)想、金山也不是沒有機(jī)會(huì)。從PC互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的發(fā)展來看,沒有歷史包袱的產(chǎn)品更容易獲得成功。說到這點(diǎn)總是難免會(huì)提到諾基亞、摩托羅拉、愛立信等最近十年的變化,當(dāng)然PC時(shí)代會(huì)有更多的例子,只是年代比較遙遠(yuǎn)了。

事實(shí)上也簡單,成熟的公司總會(huì)有成熟的架構(gòu),百度總裁張亞勤最近強(qiáng)調(diào)公司的中層力量可能會(huì)比較阻礙創(chuàng)新,這是一個(gè)事實(shí),誰也不愿放棄舒適安逸的環(huán)境去適應(yīng)新鮮的事情。畢竟,這意味著可能要放棄陪伴家庭,放棄自我休閑,所以我很敬佩創(chuàng)業(yè)群體,這是一群有理想還能做事情可愛的人,而事實(shí)也證明,大都是創(chuàng)業(yè)公司創(chuàng)造出了奇跡。無論百度、阿里、騰訊、小米、京東還是華為,他們曾經(jīng)都是很小的創(chuàng)業(yè)公司,也曾經(jīng)賣也賣不掉。

6、感知和認(rèn)知是兩個(gè)層面的問題

毋庸置疑,這也是人工智能的兩個(gè)層面,感知更多關(guān)注的是數(shù)據(jù),認(rèn)知更多關(guān)注的是推理。顯而易見,現(xiàn)在我們還在感知的階段,這個(gè)階段所強(qiáng)調(diào)的智能其實(shí)不重要,控制才重要??梢园阎悄芸醋鬣孱^,而控制才是根本。特別是真實(shí)場景下的感知問題,這是一切AI的基礎(chǔ)。

那么感知就牽涉到多學(xué)科融合的問題,比如真實(shí)場景下的語音識(shí)別問題,首先就是真實(shí)場景下獲取數(shù)據(jù)的聲學(xué)問題,這更多是一個(gè)物理學(xué)科的問題,而數(shù)據(jù)處理后又要涉及深度學(xué)習(xí)的問題,這又是一個(gè)計(jì)算機(jī)學(xué)科的問題,如何平衡這兩類技術(shù)并且融合成一種新的技術(shù)體系顯然也是一個(gè)難點(diǎn)。何況感知還包括了器件、芯片等硬件技術(shù),比如語音識(shí)別常用的麥克風(fēng),消費(fèi)級(jí)產(chǎn)品都是標(biāo)量麥克風(fēng),矢量麥克風(fēng)在數(shù)據(jù)感知上更具優(yōu)勢,但是怎用應(yīng)用以及如何降低成本都是一個(gè)技術(shù)和產(chǎn)業(yè)的問題。

7、核心競爭不是技術(shù),而是產(chǎn)品

我們知道,技術(shù)特別是算法本身不容易形成壁壘,例如深度學(xué)習(xí)也只是一個(gè)工具。算法只是一些體現(xiàn)技術(shù)思路的代碼,這些代碼不可能形成壁壘,但是有相當(dāng)高的技術(shù)門檻,這也是人工智能公司基本都以博士為主的原因。由于算法很難直接形成有商業(yè)價(jià)值的專利和標(biāo)準(zhǔn),所以發(fā)展一定階段就會(huì)開源,開源的結(jié)果就是訓(xùn)練一段時(shí)間,大家都可以訓(xùn)練一個(gè)還可以用的模型出來,核心問題只是怎么把這個(gè)模型優(yōu)化得更好,更能落地到實(shí)際產(chǎn)業(yè)之中。

所以人工智能的核心競爭力不在于技術(shù)本身,而是公司的格局,格局不清晰很可能競爭不過從事AI的產(chǎn)品公司。比如,產(chǎn)品公司如果把算法做到場景里面,場景是可以形成壁壘的。比如醫(yī)療領(lǐng)域做到No.1,肯定就比通用的有優(yōu)勢,這里面不管你是通過資源支持,還是BD,都是產(chǎn)品公司的優(yōu)勢。另外場景和數(shù)據(jù)密切相關(guān),因?yàn)槭占瘮?shù)據(jù)是需要周期的,處理數(shù)據(jù)是需要投入巨資的,所以在特定場景下積累到一定規(guī)模的數(shù)據(jù)也是可以形成壁壘的。

因此,巨頭把大量精力花在技術(shù)方面顯然得不償失,單點(diǎn)技術(shù)更適合創(chuàng)業(yè)公司來搞,因?yàn)榧夹g(shù)從來都是苦行僧的活,創(chuàng)業(yè)公司的人才顯然沒有寬敞明亮的環(huán)境可以聊天做PR。Amazon等國外巨頭的做法非常值得借鑒,投資和收購都是非??旖莸囊环N方式,事實(shí)上,時(shí)間才是最大的一種壁壘。

8、理性看待人工智能的技術(shù)紅利

很多大佬都在強(qiáng)調(diào),當(dāng)前AI相關(guān)的人才成本太高,這不是一個(gè)產(chǎn)業(yè)的好現(xiàn)象。簡單類比來說,因?yàn)樯钲诘漠a(chǎn)業(yè)工人成本增高,導(dǎo)致很多制造產(chǎn)業(yè)向東南亞方向轉(zhuǎn)移。其實(shí)很多人也不明白為何AI相關(guān)的技術(shù)人才會(huì)如此自信,如果從PC到移動(dòng)到AI的產(chǎn)業(yè)變化來看,事實(shí)上漫天要價(jià)的做法并不理智,如何最快落地到某個(gè)具體場景之中,充分挖掘技術(shù)紅利跟隨公司成長才是明智的選擇。

而且從2017年的投資案例來看,人工智能的天使融資幾乎很少了,也就是說人工智能技術(shù)創(chuàng)業(yè)這一波基本上各就其位,各家創(chuàng)業(yè)公司早就不再關(guān)注PPT和DEMO了,所有的客戶都會(huì)強(qiáng)調(diào)指標(biāo)和細(xì)節(jié),無數(shù)的細(xì)節(jié)就會(huì)折騰死一波創(chuàng)業(yè)公司?,F(xiàn)在,成敗的關(guān)鍵在于各家對于細(xì)節(jié)的把握。事實(shí)上,筆者一直在估算這波人工智能創(chuàng)業(yè)的低谷期,這是必將到來的,從來沒有哪個(gè)行業(yè)是一帆風(fēng)順的,波浪起伏才是恒久遠(yuǎn)。這個(gè)時(shí)候,再大談所謂的技術(shù)紅利,顯然也是不合時(shí)宜了。

9、不要忽視人工智能的商務(wù)拓展

大型公司有沒有人工智能研究院倒不是關(guān)鍵問題,研究院的目的也是要讓技術(shù)為產(chǎn)品服務(wù)。關(guān)鍵問題是,如何解決人工智能的商務(wù)拓展問題,特別是在人工智能極其早期的情況下,還需要教育和培訓(xùn)市場。Amazon Echo的成功,千萬不要忽視了Amazon在渠道上的優(yōu)勢以及市場投入方面的大手筆。

所以,筆者個(gè)人覺得,與其花費(fèi)精力探討AI技術(shù)如何如何(抄襲Echo也沒啥不好),不如多摸摸市場如何,試試用戶怎樣,再來定下營銷打法和渠道策略。只有先有一款好的產(chǎn)品粘得住市場,再琢磨所謂的變現(xiàn)、戰(zhàn)略等等之類的東西。想當(dāng)初各大門戶網(wǎng)站成立之初,估計(jì)打死也不會(huì)想到最終還是以廣告盈利的。

10、AI創(chuàng)業(yè)不要全棧,尋求單點(diǎn)突破

AI創(chuàng)業(yè)的全棧式玩法更多是一個(gè)理想,即便蘋果至少也需要200家供貨商。創(chuàng)業(yè)公司應(yīng)該都是利用自身團(tuán)隊(duì)優(yōu)勢尋求單點(diǎn)突破,因?yàn)閯?chuàng)業(yè)公司的資金、規(guī)模、人員、口碑、營銷等等都是非常弱勢的,其本身根本就沒有抵抗風(fēng)險(xiǎn)的能力,更不要說試錯(cuò)的機(jī)會(huì)了。但凡一個(gè)戰(zhàn)略決策錯(cuò)誤,創(chuàng)業(yè)公司估計(jì)就倒下了,創(chuàng)業(yè)公司其實(shí)沒有什么資格談?wù)撊珬!?/p>

即便是巨頭,全棧也是一個(gè)不恰當(dāng)?shù)倪x擇,全棧是一個(gè)逐步積累的過程,操之過急就會(huì)掉進(jìn)坑了。事實(shí)上,一個(gè)國家做到全棧都極其困難,甚至我們國家到現(xiàn)在很多地方還不能自給自足。當(dāng)然全棧在國內(nèi)又被理解成了生態(tài),不過似乎國內(nèi)號(hào)稱做生態(tài)的公司活的也并不是太好。

社會(huì)分工本來就是人類的進(jìn)步,不是說有點(diǎn)AI的苗頭就回到歷史起點(diǎn)了,遠(yuǎn)遠(yuǎn)到不了那個(gè)層次。舉個(gè)簡單的例子,比如聲智科技從事的遠(yuǎn)場語音交互領(lǐng)域,任意一個(gè)單項(xiàng)技術(shù)早就已經(jīng)全球競爭了。當(dāng)國內(nèi)科技公司還在模仿Echo,互相爭吵該不該用麥克風(fēng)陣列的時(shí)候,國外的科技巨頭已經(jīng)開始進(jìn)一步搶奪全球語音交互市場的控制權(quán)。無論是行業(yè)標(biāo)準(zhǔn)的定制,還是戰(zhàn)略專利的布局,亦或是音頻數(shù)據(jù)集的開放,以及各種產(chǎn)業(yè)生態(tài)聯(lián)盟的搭建,事實(shí)上國內(nèi)的科技公司巨頭已經(jīng)落后許多了,這個(gè)時(shí)候快速做起業(yè)務(wù)才是核心,而不是從頭到尾打造所謂的全棧。

小結(jié)

啰嗦了那么多,主要想表達(dá)兩個(gè)觀點(diǎn):

一是期望業(yè)界理性看待人工智能,理想看待這個(gè)領(lǐng)域的創(chuàng)業(yè)公司,資本不要拔苗助長,媒體也不要捧天摔地,創(chuàng)業(yè)者也不要自我陶醉,所有企業(yè)的成長都要遵從客觀的歷史規(guī)律,AI還只是對未來的期望。

二是也期望AI領(lǐng)域的創(chuàng)業(yè)者們,從事這個(gè)領(lǐng)域更要有格局、有眼光、心胸開闊,AI行業(yè)不存在誰滅誰的問題,AI只是通過技術(shù)升級(jí)推動(dòng)行業(yè)的進(jìn)步,宗旨還是造福人類社會(huì)。因此,AI企業(yè)更應(yīng)該合作共贏,一起教育和培養(yǎng)市場,共同推進(jìn)AI技術(shù)生根發(fā)芽。

 

作者:陳孝良

來源:https://zhuanlan.zhihu.com/p/26191368

本文由 @陳孝良 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自PEXELS,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請登錄
  1. 怎么定義成功? 看銷量?

    來自北京 回復(fù)