AI產(chǎn)品經(jīng)理入門手冊(上)

47 評論 167348 瀏覽 731 收藏 34 分鐘

近兩年來AI產(chǎn)業(yè)已然成為新的焦點和風(fēng)口,各互聯(lián)網(wǎng)巨頭都在布局人工智能,不少互聯(lián)網(wǎng)產(chǎn)品經(jīng)理也開始考慮轉(zhuǎn)型AI產(chǎn)品經(jīng)理,本文作者也同樣在轉(zhuǎn)型中。本篇文章是通過一段時間的學(xué)習(xí)歸納總結(jié)整理而成,力圖通過這篇文章給各位考慮轉(zhuǎn)型的產(chǎn)品經(jīng)理們一個對AI的全局概括了解。本文分為上下兩篇,此為上篇。

全文思維導(dǎo)圖如下:

目錄:

  1. AI通識
  2. AI應(yīng)用領(lǐng)域
  3. AI技術(shù)
  4. 小結(jié)

一、AI通識

1.1 AI產(chǎn)業(yè)結(jié)構(gòu)

AI發(fā)展至今大致按照在產(chǎn)業(yè)結(jié)構(gòu)上的分工不同產(chǎn)生了三種類型的公司,我們在轉(zhuǎn)型時最好要先明確自己的優(yōu)勢及興趣,來判斷自己適合著眼于哪個層面的工作,從而進(jìn)行針對性的學(xué)習(xí)和提升。

(1)行業(yè)+AI

這類公司重在“行業(yè)”,本身有著一定的行業(yè)積累,給用戶提供AI賦能后的產(chǎn)品或服務(wù)。例如:智能家居、智能車載等。這類公司對產(chǎn)品經(jīng)理的要求重點在對行業(yè)的理解上,以及需要對行業(yè)趨勢有一定的insight。

目前此類公司的戰(zhàn)略趨勢是會越來越細(xì)分到具體的垂直場景上,所以這也對產(chǎn)品經(jīng)理的場景分析能力有較高要求

(2)AI+行業(yè)

這類公司重在“AI”,是由AI催生出來的行業(yè),客戶可以通過使用這類公司提供的服務(wù)或解決方案來完善自己的產(chǎn)品,從而快速提升自身產(chǎn)品的價值,例如:智能客服、智能外呼等。

此類公司商業(yè)模式主要以to B為主,所以需要產(chǎn)品經(jīng)理具有較強(qiáng)的溝通能力,能快速挖掘理解客戶的真實需求,并對項目具有一定的把控管理能力。

(3)基礎(chǔ)平臺

這類公司旨在提供基礎(chǔ)AI技術(shù)平臺,包括一些計算平臺、算法平臺,或者提供各場景的一手?jǐn)?shù)據(jù),從而幫助企業(yè)快速對接AI技術(shù),大幅縮短客戶在人工智能研發(fā)上的投入成本和周期。此類公司對產(chǎn)品經(jīng)理的要求更側(cè)重于對底層技術(shù)框架的理解。如果你曾經(jīng)從事過研發(fā)工作,那么在該類公司工作會比較有優(yōu)勢。

1.2 AI產(chǎn)品經(jīng)理的分類

AI產(chǎn)品經(jīng)理,是直接應(yīng)用或間接涉及了AI技術(shù),進(jìn)而完成相關(guān)AI產(chǎn)品的設(shè)計、研發(fā)、推廣、產(chǎn)品生命周期管理等工作的產(chǎn)品經(jīng)理。

引用@hanniman的觀點,AI產(chǎn)品經(jīng)理可以從狹義和廣義來分類:

(1)狹義AI產(chǎn)品經(jīng)理

1)定義

直接應(yīng)用了語義、語音、計算機(jī)視覺和機(jī)器學(xué)習(xí)這4個領(lǐng)域的AI技術(shù),進(jìn)而完成相關(guān)AI產(chǎn)品的設(shè)計、研發(fā)、推廣、產(chǎn)品生命周期管理等工作的產(chǎn)品經(jīng)理。因為語義、語音、計算機(jī)視覺和機(jī)器學(xué)習(xí)這四個領(lǐng)域近幾年的落地情況具有如下4個特點:

  1. 直到近些年才逐漸“可商用”(這4項AI技術(shù),其實很多年前就有了,但一直不夠完善);
  2. 可以應(yīng)用到新產(chǎn)品形態(tài)/品類,比如:實體服務(wù)機(jī)器人、智能音箱、虛擬機(jī)器人等;
  3. 很可能應(yīng)用了新的交互方式,比如:對話/語音/多模態(tài)等;
  4. 慢慢形成新職位,比如:TTS產(chǎn)品經(jīng)理。

2)分類:

  1. 語義類AI產(chǎn)品經(jīng)理:對話PM(可再細(xì)分為聊天、垂類等)、知識圖譜PM、機(jī)器翻譯PM、搜索PM等
  2. 語音類AI產(chǎn)品經(jīng)理:ASR PM、TTS PM
  3. 視覺類AI產(chǎn)品經(jīng)理:人臉識別PM、車輛識別PM、智能視頻分析PM(涵蓋了人臉、車輛、多目標(biāo)等等)、圖像檢索PM
  4. 機(jī)器學(xué)習(xí)類AI產(chǎn)品經(jīng)理:在出行、推薦、大數(shù)據(jù)等各種領(lǐng)域應(yīng)用了機(jī)器學(xué)習(xí)技術(shù)的PM
  5. 終端應(yīng)用類AI產(chǎn)品經(jīng)理:還有一些PM,通過各種終端載體形式,也直接應(yīng)用了以上4種AI技術(shù)中的1種或多種,比如:實體機(jī)器人PM、虛擬機(jī)器人PM、智能車載PM、智能家居PM(含智能音箱PM)、穿戴式設(shè)備PM(含VR、AR、MR、手表、手環(huán)、耳機(jī)等)、其他互聯(lián)網(wǎng)產(chǎn)品形態(tài)的PM(公眾號、QQ群、web頁面、App等)

(2)廣義AI產(chǎn)品經(jīng)理

1)定義

間接涉及了語義、語音、計算機(jī)視覺和機(jī)器學(xué)習(xí)這4個領(lǐng)域的AI技術(shù)、或直接應(yīng)用了其他還不夠成熟的細(xì)分領(lǐng)域AI技術(shù)(比如:腦機(jī)接口、量子計算等),進(jìn)而完成相關(guān)AI產(chǎn)品的設(shè)計、研發(fā)、推廣、產(chǎn)品生命周期管理等工作的產(chǎn)品經(jīng)理。

廣義AI產(chǎn)品經(jīng)理具有如下特點:

  • “間接涉及”的意思是,不直接掌握這4種AI技術(shù),也能做當(dāng)前的本質(zhì)工作;特別的,這類職位,很可能在2015年前已經(jīng)存在了。
  • 至于“直接應(yīng)用了其他還不夠成熟的細(xì)分領(lǐng)域AI技術(shù)”,這類領(lǐng)域由于過于超前,AI技術(shù)還需要重大突破、市場還沒有成熟,產(chǎn)品經(jīng)理的產(chǎn)品設(shè)計職責(zé)不像互聯(lián)網(wǎng)產(chǎn)品經(jīng)理這么“重”。所以很可能由技術(shù)人員或公司創(chuàng)始人兼任,并會承擔(dān)較多的項目經(jīng)理工作職責(zé)——相應(yīng)的,這類產(chǎn)品經(jīng)理的數(shù)量,目前還非常少。
  • 當(dāng)然,未來,廣義AI產(chǎn)品經(jīng)理也會慢慢向狹義AI產(chǎn)品經(jīng)理演變、融合。

2)分類

  • 終端應(yīng)用類產(chǎn)品經(jīng)理(非狹義AI):在前文提及的實體機(jī)器人、虛擬機(jī)器人、智能車載、智能家居、穿戴式設(shè)備、其他互聯(lián)網(wǎng)產(chǎn)品形態(tài)等各種終端載體上,沒有直接應(yīng)用(但間接涉及了)語義、語音、計算機(jī)視覺和機(jī)器學(xué)習(xí)這4種AI技術(shù)的PM。
  • 策略類產(chǎn)品經(jīng)理(非狹義AI):在出行、推薦、大數(shù)據(jù)等領(lǐng)域,沒有直接應(yīng)用(但間接涉及了)機(jī)器學(xué)習(xí)技術(shù)的PM
  • 非成熟AI技術(shù)類:腦機(jī)接口、量子計算等。

1.3 AI產(chǎn)品經(jīng)理的能力模型

每個行業(yè)的發(fā)展都要經(jīng)過重技術(shù)、重產(chǎn)品、重運營這3個階段,現(xiàn)如今AI行業(yè)已經(jīng)步入第二個階段即產(chǎn)品的優(yōu)先性要高于技術(shù)和運營。在這種背景下,除了要具備通用產(chǎn)品思維外,行業(yè)還對AI產(chǎn)品經(jīng)理在如下方面提出了更高的要求:

(1)找準(zhǔn)商業(yè)變現(xiàn)模式和閉環(huán)

資本寒冬里,整個市場都在重新洗牌,這種情況下找準(zhǔn)自己產(chǎn)品的商業(yè)模式就顯得格外重要。陸奇曾說過,人工智能落地最關(guān)鍵的是找到場景和商業(yè)模式,做出極致體驗,并快速迭代。

目前AI市場實現(xiàn)商業(yè)變現(xiàn)主要有兩種方式:

  • 一種是AI直接產(chǎn)出價值,通過AI來取代部分人力,提高生產(chǎn)效率并節(jié)省人力成本,例如智能客服系統(tǒng)等;
  • 另一種則是AI賦能人類,為人類決策提供支持,例如AI在醫(yī)療領(lǐng)域的應(yīng)用,輔助醫(yī)生診療,AI都是作為助手的角色來幫助人類。

不管是哪種變現(xiàn)方式,要想把AI技術(shù)跟垂直行業(yè)結(jié)合,都要求AI產(chǎn)品經(jīng)理真實地參與到業(yè)務(wù)的整個過程中,對行業(yè)有足夠縱深的理解。從而從當(dāng)前行業(yè)痛點入手,尋找具有商業(yè)價值并足夠細(xì)分的垂直場景分析透徹,提煉出場景中可以幫助產(chǎn)品建立優(yōu)勢的關(guān)鍵點,評估投入產(chǎn)出比,調(diào)研用戶若使用我們的產(chǎn)品解決當(dāng)前問題愿意支付的價格,之后制定合適的商業(yè)推廣策略和產(chǎn)品定價包裝策略,最終實現(xiàn)產(chǎn)品變現(xiàn)。

目前商業(yè)化程度做的較好的行業(yè)有安防、金融、互聯(lián)網(wǎng)服務(wù)、企業(yè)服務(wù):

  • 安防領(lǐng)域,在“雪亮工程”的政策推動下,針對人像數(shù)據(jù)、車輛數(shù)據(jù)的智能攝像機(jī)、后臺分析系統(tǒng)等產(chǎn)品落地速度快。
  • 在民用市場,人臉閘機(jī)成為民用市場的明星產(chǎn)品。
  • 金融領(lǐng)域,智能風(fēng)控和量化投資的技術(shù)應(yīng)用商業(yè)化程度較高,作為“離錢最近”的行業(yè),金融業(yè)原本積累的海量數(shù)據(jù),使得人工智能在金融領(lǐng)域快速落地。
  • 互聯(lián)網(wǎng)服務(wù)領(lǐng)域,以翻譯、P圖、智能推薦、語音轉(zhuǎn)寫等服務(wù)為主,這些服務(wù)以智能手機(jī)為主要入口,與公眾工作和生活的關(guān)系較緊密。
  • 企業(yè)服務(wù)領(lǐng)域,智能營銷和智能客服是兩大主要落地的應(yīng)用,前者重點基于人群大數(shù)據(jù)、通過數(shù)據(jù)挖掘技術(shù)實現(xiàn)精準(zhǔn)營銷,后者基于知識圖譜和語音交互技術(shù)而正在被廣泛應(yīng)用于各行業(yè)。

(2)把控產(chǎn)品需求

找準(zhǔn)產(chǎn)品的商業(yè)變現(xiàn)模式之后,就要深挖產(chǎn)品需求。首先要對公司整體產(chǎn)品架構(gòu)有比較清晰的認(rèn)識,在這個框架體系里評估當(dāng)前需求是否符合公司整體戰(zhàn)略規(guī)劃,之后在這個戰(zhàn)略方向上做MVP,驗證成功則可以繼續(xù)打磨細(xì)節(jié)持續(xù)優(yōu)化,驗證失敗則再探索下一個方向。

業(yè)內(nèi)通常認(rèn)為人工智能的發(fā)展離不開三大要素:數(shù)據(jù)、算法、計算力,但人工智能落地的應(yīng)用場景同樣是一款產(chǎn)品能否取得成功的關(guān)鍵。

AI產(chǎn)品經(jīng)理最核心的技能也在于此,即通過人工智能技術(shù)去重新定義場景和需求,提供一套可行的人工智能解決方案。在明確了具體的需求場景后,需要考慮清楚我們產(chǎn)品的客戶會在當(dāng)前流程里的哪個環(huán)節(jié)使用它,以及現(xiàn)有的方案是什么,我們的產(chǎn)品解決方案比現(xiàn)有方案好在哪里。AI

產(chǎn)品經(jīng)理對產(chǎn)品的需求把控能力比傳統(tǒng)互聯(lián)網(wǎng)經(jīng)理要求高不少,而且需要快速驗證,在瞬息萬變的AI領(lǐng)域迅速落地能解決痛點問題的產(chǎn)品。

現(xiàn)階段的行業(yè)通識是選準(zhǔn)一個足夠細(xì)分的垂直領(lǐng)域去構(gòu)建商業(yè)和技術(shù)壁壘,而不是與谷歌或百度競爭通用AI技術(shù)。目前to B的場景主要從提升人工效率、降低人力成本、幫助決策的方向考慮,to C的場景則更側(cè)重于提高便利性。

(3)與技術(shù)互相推動,互相成就

作為AI產(chǎn)品經(jīng)理,首先要認(rèn)識到用戶只在乎購買的產(chǎn)品幫他解決了什么問題,以及為此支付的價格是否值得,并不在乎產(chǎn)品使用了多復(fù)雜多前沿的技術(shù)。產(chǎn)品設(shè)計應(yīng)當(dāng)從商業(yè)盈利以及切實解決用戶痛點的角度出發(fā)而非技術(shù)出發(fā),所以AI產(chǎn)品經(jīng)理在這個意義上可以根據(jù)商業(yè)及產(chǎn)品需要倒逼技術(shù)優(yōu)化。

在實際的產(chǎn)品設(shè)計的過程中,AI產(chǎn)品經(jīng)理必須理解技術(shù)實現(xiàn)過程,找到用戶需求和AI技術(shù)的交叉點,設(shè)計的產(chǎn)品要和團(tuán)隊現(xiàn)有數(shù)據(jù)、算法、計算能力匹配。做到準(zhǔn)確傳達(dá)產(chǎn)品需求,幫助研發(fā)工程師快速實現(xiàn)產(chǎn)品目標(biāo),縮短研發(fā)工程師找到最佳技術(shù)方案的時間。并能使用非技術(shù)語言,將研發(fā)過程中的技術(shù)原理及出現(xiàn)的問題及時與leader和客戶溝通,來獲得支持和認(rèn)可。

此外,AI產(chǎn)品經(jīng)理還需要拓寬自己的認(rèn)知極限,了解技術(shù)邊界,多跟團(tuán)隊里的AI工程師交流,平時也要隨時關(guān)注AI行業(yè)最新動態(tài)和變革,閱讀前沿paper。

(4)獲取用戶信任

隨著AI技術(shù)的發(fā)展,AI涉及到的倫理和道德及法律風(fēng)險也越來越引起大眾的關(guān)注。美國很多人工智能公司已經(jīng)成立了倫理審查委員會來檢查人工智能產(chǎn)品的設(shè)計方案是否符合道德,并確保用戶的安全和權(quán)益收到保護(hù)。

作為AI產(chǎn)品經(jīng)理,設(shè)計的產(chǎn)品可能會承擔(dān)著更高的法律和道德風(fēng)險。目前很多公司已經(jīng)意識到AI對人類在道德倫理上的影響并做出舉措,在今年的谷歌開發(fā)者大會上谷歌就為Google Assistant加入了針對兒童的Pretty please功能,鼓勵小孩對進(jìn)行禮貌提問。

在技術(shù)發(fā)展的過程中,不可避免會引發(fā)一些問題造成用戶的不信任。2016年3月,Twitter上線了一款聊天機(jī)器人Tay,但是僅在一天的時間里,Tay就在與網(wǎng)民互動過程中學(xué)習(xí)成為了一個集性別歧視、種族歧視等于一身的“不良少女”。

類似的,雖然淘寶基于大數(shù)據(jù)的個性化推薦十分精準(zhǔn),但是因為可解釋性較差導(dǎo)致很多用戶對如此精準(zhǔn)的推薦感到十分不安,并認(rèn)為這種個性化推薦可能侵犯了他們的隱私權(quán)。

AI 未來的發(fā)展方向可能更應(yīng)該將更多的決策過程展示出來,讓用戶理解和明白為什么要做這樣的決策,而不應(yīng)該僅僅是一個黑盒。

二、AI應(yīng)用領(lǐng)域

AI目前主要的應(yīng)用領(lǐng)域有3個方向,包括:計算機(jī)視覺、語音交互、自然語言處理。

2.1 計算機(jī)視覺(CV)

計算機(jī)視覺是一門研究如何使機(jī)器“看”的科學(xué),就是指用攝影機(jī)和計算機(jī)代替人眼對目標(biāo)進(jìn)行識別、跟蹤和測量等機(jī)器視覺的應(yīng)用,是使用計算機(jī)及相關(guān)設(shè)備對生物視覺的一種模擬,對采集的圖片或視頻進(jìn)行處理從而獲得相應(yīng)場景的三維信息,讓計算機(jī)具有對周圍世界的空間物體進(jìn)行傳感、抽象、判斷的能力。

計算機(jī)視覺在現(xiàn)實場景中應(yīng)用價值主要體現(xiàn)在可以利用計算機(jī)對圖像和視頻的識別能力,替代部分人力工作,節(jié)省人力成本并提升工作效率。傳統(tǒng)的計算機(jī)視覺基本遵循圖像預(yù)處理、提取特征、建模、輸出的流程,不過利用深度學(xué)習(xí),很多問題可以直接采用端到端,從輸入到輸出一氣呵成。

(1)研究內(nèi)容

  1. 實際應(yīng)用中采集到的圖像的質(zhì)量通常都沒有實驗室數(shù)據(jù)那么理想,光照條件不理想,采集圖像模糊等都是實際應(yīng)用中常見的問題。所以首先需要校正成像過程中,系統(tǒng)引進(jìn)的光度學(xué)和幾何學(xué)的畸變,抑制和去除成像過程中引進(jìn)的噪聲,這些統(tǒng)稱為圖像的恢復(fù)。
  2. 對輸入的原始圖像進(jìn)行預(yù)處理,這一過程利用了大量的圖像處理技術(shù)和算法,如:圖像濾波、圖像增強(qiáng)、邊緣檢測等,以便從圖像中抽取諸如角點、邊緣、線條、邊界以及色彩等關(guān)于場景的基本特征;這一過程還包含了各種圖像變換(如:校正)、圖像紋理檢測、圖像運動檢測等。
  3. 根據(jù)抽取的特征信息把反映三維客體的各個圖象基元,如:輪廓、線條、紋理、邊緣、邊界、物體的各個面等從圖象中分離出來,并且建立起各個基元之間的拓樸學(xué)上的和幾何學(xué)上的關(guān)系——稱之基元的分割和關(guān)系的確定。
  4. 計算機(jī)根據(jù)事先存貯在數(shù)據(jù)庫中的預(yù)知識模型,識別出各個基元或某些基元組合所代表的客觀世界中的某些實體——稱之為模型匹配,以及根據(jù)圖象中各基元之間的關(guān)系,在預(yù)知識的指導(dǎo)下得出圖象所代表的實際景物的含義,得出圖象的解釋或描述。

(2)應(yīng)用場景

計算機(jī)視覺的應(yīng)用場景非常廣,例如:無人駕駛、無人安防、人臉識別、光學(xué)字符識別、物體追蹤、車輛車牌識別、以圖搜圖、醫(yī)學(xué)圖像分析等。最近B站新上線的彈幕防擋臉功能,即在播放視頻時彈幕經(jīng)過人臉則自動隱藏,也是應(yīng)用了CV,這個小功能對B站核心價值之一的彈幕進(jìn)行了進(jìn)一步優(yōu)化,大大提升了用戶體驗。

(3)瓶頸

  1. 目前在實際應(yīng)用中采集到的數(shù)據(jù)還是不夠理想,光照條件、物體表面光澤、攝像機(jī)和空間位置變化都會影響數(shù)據(jù)質(zhì)量,雖然可以利用算法彌補(bǔ),但是很多情況下信息缺失無法利用算法來解決。
  2. 在一幅或多幅平面圖像中提取深度信息或表面傾斜信息并不是件容易的事,尤其是在灰度失真、幾何失真還有干擾的情況下求取多幅圖像之間的對應(yīng)特征更是一個難點。除了得到物體的三維信息外,在現(xiàn)實世界里,物體間相互遮擋,自身各部位間的遮擋使得圖像分拆更加復(fù)雜。
  3. 預(yù)知識設(shè)置的不同也使得同樣的圖像也會產(chǎn)生不同的識別結(jié)果,預(yù)知識在視覺系統(tǒng)中起著相當(dāng)重要的作用。在預(yù)知識庫中存放著各種實際可能遇到的物體的知識模型,和實際景物中各種物體之間的約束關(guān)系。計算機(jī)的作用是根據(jù)被分析的圖象中的各基元及其關(guān)系,利用預(yù)知識作為指導(dǎo),通過匹配、搜索和推理等手段,最終得到對圖象的描述。在整個過程中預(yù)知識時刻提供處理的樣板和證據(jù),每一步的處理結(jié)果隨時同預(yù)知識進(jìn)行對比,所以預(yù)知識設(shè)置會對圖像識別結(jié)果產(chǎn)生極大影響。

(4)提供相關(guān)方案的企業(yè)

  1. 曠視face++人工智能開放平臺(提供人臉識別、人體識別、文字識別等技術(shù)方案) :https://www.faceplusplus.com.cn/
  2. 商湯科技(提供人臉和人體分析、通用與專業(yè)圖像分析、視頻處理等技術(shù)以及提供智慧安防、智能終端、智能金融等解決方案):https://www.sensetime.com/core
  3. 騰訊優(yōu)圖AI開放平臺(提供人臉及人體識別、圖像識別、文字識別等技術(shù)及天眼安防、天眼交通等解決方案):https://open.youtu.qq.com/#/open
  4. 百度AI開放平臺(提供人臉及人體識別、圖像識別、文字識別、圖像審核等):http://ai.baidu.com/tech/imagerecognition
  5. 阿里云(提供人臉識別、圖像識別、圖像搜索、視頻識別等):https://ai.aliyun.com/?spm=a2c4g.11174283.1146454.294.167d1039G3kvVD
  6. 圖普科技(提供圖像內(nèi)容審核、人臉和人體識別、文字識別、圖像場景識別等技術(shù)方案):https://www.tuputech.com/
  7. 格靈深瞳(人眼攝像機(jī)、視圖大數(shù)據(jù)分析平臺、人臉識別系統(tǒng)等):http://www.deepglint.com/

2.2 語音交互

語音交互也是非常熱門的方向之一,其實語音交互整個流程里包含語音識別、自然語言處理和語音合成。自然語言處理很多時候是作為單獨的一個領(lǐng)域來研究的,本文也將單獨介紹自然語言處理,所以此處只介紹語音識別和語音合成。

語音交互的最佳應(yīng)用場景便是眼睛不方便看,或者手不方便操作的時候。“不方便看”比較典型的場景便是智能車載,“不方便操作”比較典型的場景便是智能音箱,這也是目前比較火的兩個細(xì)分方向。

一個完整的語音交互基本遵循下圖的流程:

(1)語音識別(ASR)

1)研究內(nèi)容

語音識別的輸入是聲音,屬于計算機(jī)無法直接處理的模擬信號,所以需要將聲音轉(zhuǎn)化成計算機(jī)能處理的文字信息。傳統(tǒng)的識別方式需要通過編碼將其轉(zhuǎn)變?yōu)閿?shù)字信號,并提取其中的特征進(jìn)行處理。

傳統(tǒng)方式的聲學(xué)模型一般采用隱馬爾可夫模型(HMM),處理流程是語音輸入——編碼(特征提?。獯a——輸出。

還有一種“端到端”的識別方式,一般采用深度神經(jīng)網(wǎng)絡(luò)(DNN),這種方式的聲學(xué)模型的輸入通常可以使用更原始的信號特征(減少了編碼階段的工作),輸出也不再必須經(jīng)過音素等底層元素,可以直接是字母或者漢字。

在計算資源與模型的訓(xùn)練數(shù)據(jù)充足的情況下,“端到端”方式往往能達(dá)到更好的效果。目前的語音識別技術(shù)主要是通過DNN實現(xiàn)的。語音識別的效果一般用“識別率”,即識別文字與標(biāo)準(zhǔn)文字相匹配的字?jǐn)?shù)與標(biāo)準(zhǔn)文字總字?jǐn)?shù)的比例來衡量。目前中文通用語音連續(xù)識別的識別率最高可以達(dá)到97%。

2)衍生研究內(nèi)容

  • 麥克風(fēng)陣列:在家庭、會議室、戶外、商場等各種環(huán)境下,語音識別會有噪音、混響、人聲干擾、回聲等各種問題。在這種需求背景下可以采用麥克風(fēng)陣列來解決。麥克風(fēng)陣列由一定數(shù)目的聲學(xué)傳感器(一般是麥克風(fēng))組成,用來對聲場的空間特性進(jìn)行采樣并處理的系統(tǒng),可以實現(xiàn)語音增強(qiáng)、聲源定位、去混響、聲源信號提取/分離。麥克風(fēng)陣列又分為:2麥克風(fēng)陣列、4麥克風(fēng)陣列、6麥克風(fēng)陣列、6+1麥克風(fēng)陣列。隨著麥克風(fēng)數(shù)量的增多,拾音的距離,噪聲抑制,聲源定位的角度,以及價格都會不同,所以要貼合實際應(yīng)用場景來找到最佳方案。
  • 遠(yuǎn)場語音識別:解決遠(yuǎn)場語音識別需要結(jié)合前后端共同完成。前端使用麥克風(fēng)陣列硬件,解決噪聲、混響、回聲等帶來的問題,后端則利用近場遠(yuǎn)場的聲學(xué)規(guī)律不同構(gòu)建適合遠(yuǎn)場環(huán)境的聲學(xué)模型,前后端共同解決遠(yuǎn)場識別的問題。
  • 語音喚醒:通過關(guān)鍵詞喚醒語音設(shè)備,通常都是3個音節(jié)以上的關(guān)鍵詞。例如:嘿Siri、和亞馬遜echo的Alexa。語音喚醒基本是在本地進(jìn)行的,必須在設(shè)備終端運行,不能切入云平臺。因為一個7×24小時監(jiān)聽的設(shè)備要保護(hù)用戶隱私,只能做本地處理,而不能將音頻流聯(lián)網(wǎng)進(jìn)行云端處理。 語音喚醒對喚醒響應(yīng)時間、功耗、喚醒效果都有要求。
  • 語音激活檢測:判斷外界是否有有效語音,在低信噪比的遠(yuǎn)場尤為重要。

(2)語音合成(TTS)

1)研究內(nèi)容

是將文字轉(zhuǎn)化為語音(朗讀出來)的過程,目前有兩種實現(xiàn)方法,分別是:拼接法和參數(shù)法。

  • 拼接法是把事先錄制的大量語音切碎成基本單元存儲起來,再根據(jù)需要選取拼接而成。這種方法輸出語音質(zhì)量較高,但是數(shù)據(jù)庫要求過大。
  • 參數(shù)法是通過語音提取參數(shù)再轉(zhuǎn)化為波形,從而輸出語音。這種方法的數(shù)據(jù)庫要求小,但是聲音不可避免會有機(jī)械感。

DeepMind早前發(fā)布了一個機(jī)器學(xué)習(xí)語音生成模型WaveNet,直接生成原始音頻波形,可以對任意聲音建模,不依賴任何發(fā)音理論模型,能夠在文本轉(zhuǎn)語音和常規(guī)的音頻生成上得到出色的結(jié)果。

2)瓶頸

個性化TTS數(shù)據(jù)需求量大,在用戶預(yù)期比較高的時候難滿足。需要AI產(chǎn)品經(jīng)理選擇用戶預(yù)期不苛刻的場景,或者在設(shè)計時管理好用戶預(yù)期。

(3)提供相關(guān)方案的企業(yè)

  1. 訊飛開放平臺(提供語音識別、語音合成、語音擴(kuò)展等技術(shù)方案及智能硬件以及多種行業(yè)解決方案):https://www.xfyun.cn/
  2. 圖靈機(jī)器人(提供多場景的聊天機(jī)器人解決方案):http://www.tuling123.com/
  3. 騰訊AI開放平臺(提供語音識別、語音合成等技術(shù)):https://ai.qq.com/
  4. 百度AI開放平臺(提供語音識別、語音合成等技術(shù)):http://ai.baidu.com/tech/speech
  5. 阿里云(提供語音識別、語音合成、錄音文件識別等):https://ai.aliyun.com/?spm=a2c4g.11174283.1146454.294.167d1039G3kvVD
  6. 追一科技(提供智能外呼、及智能機(jī)器人在多行業(yè)的解決方案):https://zhuiyi.ai/

2.3 自然語言理解(NLP)

(1)研究內(nèi)容

自然語言處理是一門讓計算機(jī)理解、分析以及生成自然語言的學(xué)科,是理解和處理文字的過程,相當(dāng)于人類的大腦。NLP是目前AI發(fā)展的核心瓶頸。

NLP大概的研究過程是:研制出可以表示語言能力的模型——提出各種方法來不斷提高語言模型的能力——根據(jù)語言模型來設(shè)計各種應(yīng)用系統(tǒng)——不斷地完善語言模型。自然語言理解和自然語言生成都屬于自然語言理解的概念范疇。

自然語言理解(NLU)模塊,著重解決的問題是單句的語義理解,對用戶的問題在句子級別進(jìn)行分類,明確意圖識別(Intent Classification);同時在詞級別找出用戶問題中的關(guān)鍵實體,進(jìn)行實體槽填充(Slot Filling)。

一個簡單的例子,用戶問“我想吃冰激凌”,NLU模塊就可以識別出用戶的意圖是“尋找甜品店或超市”,而關(guān)鍵實體是“冰激淋”。有了意圖和關(guān)鍵實體,就方便了后面對話管理模塊進(jìn)行后端數(shù)據(jù)庫的查詢或是有缺失信息而來繼續(xù)多輪對話補(bǔ)全其它缺失的實體槽。

自然語言生成(NLG)模塊是機(jī)器與用戶交互的最后一公里路,目前自然語言生成大部分使用的方法仍然是基于規(guī)則的模板填充,有點像實體槽提取的反向操作,將最終查詢的結(jié)果嵌入到模板中生成回復(fù)。手動生成模板之余,也有用深度學(xué)習(xí)的生成模型通過數(shù)據(jù)自主學(xué)習(xí)生成帶有實體槽的模板。

(2)應(yīng)用場景

自然語言處理作為CUI(Conversational User Interface,對話式交互)中非常重要的一部分,只要是CUI的應(yīng)用場景都需要自然語言處理發(fā)揮作用。除此之外,機(jī)器翻譯、文本分類也都是自然語言處理的重要應(yīng)用領(lǐng)域。

(3)瓶頸

1)詞語實體邊界界定

自然語言是多輪的,一個句子不能孤立的看,要么有上下文,要么有前后輪對話,而正確劃分、界定不同詞語實體是正確理解語言的基礎(chǔ)。目前的深度學(xué)習(xí)技術(shù),在建模多輪和上下文的時候,難度遠(yuǎn)遠(yuǎn)超過了如語音識別、圖像識別的一輸入一輸出的問題。所以語音識別或圖像識別做的好的企業(yè),不一定能做好自然語言處理。

2)詞義消歧

詞義消歧包括多義詞消歧和指代消歧。多義詞是自然語言中非常普遍的現(xiàn)象,指代消歧是指正確理解代詞所代表的?或事物。例如:在復(fù)雜交談環(huán)境中,“他”到底指代誰。詞義消歧還需要對文本上下文、交談環(huán)境和背景信息等有正確的理解,目前還無法對此進(jìn)行清晰的建模。

3)個性化識別

自然語言處理要面對個性化問題,自然語言常常會出現(xiàn)模凌兩可的句子,而且同樣一句話,不同的人使用時可能會有不同的說法和不同的表達(dá)。這種個性化、多樣化的問題非常難以解決。

(4)提供相關(guān)方案的企業(yè)

  1. 訊飛開放平臺(提供自然語言處理):https://www.xfyun.cn/
  2. 圖靈機(jī)器人(提供多場景的聊天機(jī)器人解決方案):http://www.tuling123.com/
  3. 騰訊AI開放平臺(提供基礎(chǔ)文本解析、語義分析等技術(shù)):https://open.youtu.qq.com/#/open
  4. 百度AI開放平臺(提供語言處理基礎(chǔ)技術(shù)、文本審核、機(jī)器翻譯等):http://ai.baidu.com/tech/nlp
  5. 阿里云(提供情感分析、實體識別、機(jī)器翻譯等):https://ai.aliyun.com/?spm=a2c4g.11174283.1146454.294.167d1039G3kvVD
  6. 追一科技(提供智能外呼、及智能機(jī)器人在多行業(yè)的解決方案):https://zhuiyi.ai/

小結(jié)

這是文章的上半部分,主要講了 AI 通識和 AI 應(yīng)用領(lǐng)域,下半部分主要講AI 技術(shù),敬請期待~

 

本文由 @樊帆fan 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 我覺得蠻好的,特別是這幾個做人工智能的網(wǎng)站

    來自上海 回復(fù)
  2. 不錯的入門級掃盲貼,挺好噠!謝謝分享!

    來自上海 回復(fù)
  3. 感覺AI應(yīng)該要開源,發(fā)揮普羅大眾的智慧在相同的框架下去解決一個個小問題,單靠某個公司,能做好一個方面都很困難。

    來自浙江 回復(fù)
    1. ljkhkj

      來自廣東 回復(fù)
  4. 已拜讀!

    來自北京 回復(fù)
  5. 謝謝,正在學(xué)習(xí)。

    來自北京 回復(fù)
  6. 文章寫的很好啊,讓我對AI認(rèn)識有了一些鞏固! 有些人對AI的基礎(chǔ)認(rèn)識覺得已經(jīng)夠多了,再看就覺得沒什么東西了,那顯然就不是這篇文章的需求用戶啊,自己出門右轉(zhuǎn)不就行了!

    來自上海 回復(fù)
  7. 想問下沒有ai經(jīng)驗怎么進(jìn)入ai產(chǎn)品吶

    來自河北 回復(fù)
  8. 這篇文章的主體內(nèi)容迅雷創(chuàng)始人程浩在2017年就已經(jīng)分享過

    來自廣東 回復(fù)
    1. AI領(lǐng)域入門知識翻來覆去講也差不多就這些內(nèi)容,參考資料有列在下篇,不過寫這篇文章的時候的確是沒有如此幸運聽過程浩的分享。如果層主有線上鏈接的話可以分享出來,大家看到這篇文章也可以跟大佬學(xué)習(xí)一下,更高效

      來自廣東 回復(fù)
    2. mark

      來自上海 回復(fù)
    3. 123

      來自山東 回復(fù)
  9. 這篇文章,確實沒有把大家想要的內(nèi)容寫出來。一個產(chǎn)品經(jīng)理竟然沒有把握住用戶的需求??

    來自北京 回復(fù)
    1. 當(dāng)時也是在探索學(xué)習(xí)的階段啊,只是把學(xué)習(xí)的內(nèi)容階段性總結(jié)出來了,現(xiàn)在看是有瑕疵,總有個過程的吧

      來自廣東 回復(fù)
  10. 順便給大家個建議,千萬別去聽 起點學(xué)院“15天入門AI產(chǎn)品經(jīng)理”,真特么是瞎扯的,一點用都沒有。全是假大空的廢話

    來自北京 回復(fù)
    1. 這是真的~

      來自北京 回復(fù)
    2. 我是懂
      1)數(shù)據(jù)工程
      采集、存儲、清洗、分析、可視化
      2)學(xué)習(xí)的流程
      預(yù)處理:數(shù)據(jù)重塑、缺失值處理(補(bǔ)全、統(tǒng)計為缺失特征)
      特征工程:特征沒做好,參數(shù)調(diào)到老。在已有的特征上生成新的特征,數(shù)值、類別
      特征選擇、降維:基于MIC、Pearson相關(guān)系數(shù)、正則化方法、模型,PCA、tSNE
      訓(xùn)練模型、調(diào)參:單模型,多模型融合,集成
      評估模型:正確率(Acurracy)、準(zhǔn)確值(Pecision)、召回值(Recall)、F值、AUC
      感覺講的還行啊

      來自上海 回復(fù)
    3. 有合適的教程推薦嗎

      來自北京 回復(fù)
    4. 目前,沒找到業(yè)界有好的教程。

      來自北京 回復(fù)
    5. ?? 好吧謝謝

      來自北京 回復(fù)
    6. 我是懂
      1)數(shù)據(jù)工程
      采集、存儲、清洗、分析、可視化
      2)學(xué)習(xí)的流程
      預(yù)處理:數(shù)據(jù)重塑、缺失值處理(補(bǔ)全、統(tǒng)計為缺失特征)
      特征工程:特征沒做好,參數(shù)調(diào)到老。在已有的特征上生成新的特征,數(shù)值、類別
      特征選擇、降維:基于MIC、Pearson相關(guān)系數(shù)、正則化方法、模型,PCA、tSNE
      訓(xùn)練模型、調(diào)參:單模型,多模型融合,集成
      評估模型:正確率(Acurracy)、準(zhǔn)確值(Pecision)、召回值(Recall)、F值、AUC
      感覺講的還行啊

      來自上海 回復(fù)
  11. 你編輯的文章就像是在放屁。具體AI產(chǎn)品經(jīng)理日常工作內(nèi)容,你只要寫出來,所有人都不是傻子,就全懂了,就知道如何發(fā)散思維去學(xué)習(xí)什么知識。你反反復(fù)復(fù)說一些計算機(jī)視覺、語音交互、NLP、機(jī)器學(xué)習(xí)的內(nèi)容,根本沒有實踐內(nèi)容,你全靠忽悠和copy

    來自廣東 回復(fù)
    1. 又是一個眼睛瞎沒閱讀能力的網(wǎng)絡(luò)噴子,睜大你的狗眼自己看作者一開始就寫了自己在轉(zhuǎn)型中,哪里去給你找實踐經(jīng)驗。這篇文章主要寫的就是AI通識和應(yīng)用領(lǐng)域,是一篇針對新手的科普文。想要看AI產(chǎn)品經(jīng)理工作內(nèi)容的讀者自然會去找其他的文章。只有你又蠢又戾氣重,還沒有擺脫學(xué)生思維的白癡,才需要人把知識喂到你嘴里,連資料搜索和自我學(xué)習(xí)的能力都沒有。哪里來的野雞在這里沒本事寫文章,只會咕咕叫?shame on you

      來自廣東 回復(fù)
    2. 我是你爹,回去問你母親

      來自廣東 回復(fù)
    3. 寫這篇文章的時候的確是在轉(zhuǎn)型期啊,誰沒有個探索學(xué)習(xí)的過程

      來自廣東 回復(fù)
    4. 我覺得這篇文章很系統(tǒng)很干貨啊,你噴的有些夸張了吧
      文章是作者辛辛苦苦碼出來跟大家分享的
      這個網(wǎng)站也有審核機(jī)制,發(fā)出來就說明是不錯的
      再說 又沒收你錢 你怎么比祥林嫂還怨

      來自浙江 回復(fù)
  12. 飯團(tuán),是果殼網(wǎng)的飯團(tuán)嗎,我進(jìn)去怎么不能搜索啊

    來自上海 回復(fù)
  13. 飯團(tuán)APP里面發(fā)現(xiàn)里面找不到搜索框

    回復(fù)
  14. 文章寫的很棒,使我AI行業(yè)有了進(jìn)一步認(rèn)識 ??

    來自香港 回復(fù)
  15. 請問,飯團(tuán)的全名是哪個?現(xiàn)在應(yīng)用市場里面有幾個相似的名稱,是哪家公司的?

    來自北京 回復(fù)
  16. 我是剛?cè)肼毮橙斯ぶ悄芄镜拇髷?shù)據(jù)PM小白..大佬有AI PM的微信群嗎…求拉

    來自安徽 回復(fù)
    1. 哈哈我是加了飯團(tuán)的微信群 你可以先在飯團(tuán)里搜一下

      來自廣東 回復(fù)
    2. 飯團(tuán)好像搜不了飯團(tuán)哎..點擊發(fā)現(xiàn)飯團(tuán),就自動跳轉(zhuǎn)到了推薦Tab…

      來自安徽 回復(fù)
  17. 有AI產(chǎn)品經(jīng)理的坑歡迎聯(lián)系我哈哈哈哈

    來自廣東 回復(fù)
  18. 看到我們圖普被提名,不免留下了感動的熱淚

    來自廣東 回復(fù)
    1. 哈哈哈??

      來自廣東 回復(fù)
  19. 怎么加入大本營呀?

    回復(fù)
    1. 在飯團(tuán)里搜AI產(chǎn)品經(jīng)理大本營就可以加入啦

      來自廣東 回復(fù)
    2. 飯團(tuán)是哪里?

      來自美國 回復(fù)
    3. 一個app

      來自廣東 回復(fù)
    4. 沒有找到啊

      來自浙江 回復(fù)
    5. 飯團(tuán)是什么樣的app?

      來自廣東 回復(fù)
    6. 果殼網(wǎng)的飯團(tuán)嗎?C端的沒有搜索入口哎

      來自上海 回復(fù)
  20. 是AI飯團(tuán)的同學(xué)嗎

    來自廣東 回復(fù)
    1. 是的哈哈 很多重要參考資料都是飯團(tuán)里的 參考資料部分被放到下篇里啦

      來自廣東 回復(fù)
    2. 哈哈哈,加入大本營了嗎

      來自廣東 回復(fù)
    3. 是呀

      來自廣東 回復(fù)