從0開始搭建產(chǎn)品經(jīng)理的AI知識(shí)框架:計(jì)算機(jī)視覺

13 評(píng)論 12112 瀏覽 120 收藏 15 分鐘

這是AIPM認(rèn)知系列的第二篇內(nèi)容,如需了解第一篇《從0開始搭建產(chǎn)品的AI認(rèn)知體系》可以「點(diǎn)擊這里」查看,整篇內(nèi)容3000+字,速讀需要5分鐘

這幾年紅遍網(wǎng)絡(luò)的「FaceU激萌」APP,特斯拉自動(dòng)駕駛,iPhoneX的FaceID …大家都有所耳聞,而這些都和今天的「計(jì)算機(jī)視覺」有著密不可分的關(guān)系。

從PM的視角出發(fā),本篇內(nèi)容我會(huì)圍繞這4塊內(nèi)容來跟大家交流:

  1. 什么是計(jì)算機(jī)視覺
  2. 現(xiàn)階段有哪些應(yīng)用技術(shù)
  3. 落地中會(huì)遇到哪些問題和挑戰(zhàn)
  4. 產(chǎn)品方向一些思考

1.什么是計(jì)算機(jī)視覺?

計(jì)算機(jī)視覺(Computer Vision),可以理解是「讓計(jì)算機(jī)怎么去看?」,相當(dāng)于人類視覺的功能。

「以下案例為了確保更好理解,犧牲一定的嚴(yán)謹(jǐn)性」

拿人類來舉例,你正在駕駛一輛汽車,突然前面出現(xiàn)一個(gè)人,你會(huì)怎么辦?

剎車或打方向盤避開是不是 ?看似這個(gè)好簡(jiǎn)單的問題,實(shí)際是要經(jīng)過一系列復(fù)雜的處理

  1. 首先眼前突然出現(xiàn)物體會(huì)進(jìn)入到你的視網(wǎng)膜,經(jīng)過分析之后,把這信息發(fā)給你的大腦。
  2. 你的大腦會(huì)處理這些信息,跟你大腦里所有存儲(chǔ)的信息做比較后,進(jìn)行物體和緯度的歸類。
  3. 通過的信息歸類,給出理解我正在開車,正前方出現(xiàn)這個(gè)是人,距離越來越近了,我不能撞到他的判斷。
  4. 然后大腦通過神經(jīng)系統(tǒng)作出反應(yīng),控制你的腳踩剎車,或者手控制方向盤避開。

「這一系列的動(dòng)作只發(fā)生在零點(diǎn)幾秒」

如果這些動(dòng)作由計(jì)算機(jī)來完成,就可以初步理解為這個(gè)就是計(jì)算機(jī)視覺在于AI領(lǐng)域的應(yīng)用。

再舉個(gè)例子,看看N年前的FaceU是怎么使用計(jì)算機(jī)視覺這個(gè)技術(shù)的:

  1. 通過手機(jī)的攝像頭傳感器,把眼前的物體傳遞給某處理器。
  2. 處理器通過多項(xiàng)技術(shù)來理解眼前物體,識(shí)別出圖像中哪個(gè)是人臉,哪些是背景。
  3. 人臉進(jìn)行處理,分辨出人臉上的各個(gè)器官,并在關(guān)鍵器官上打上特殊標(biāo)記。
  4. 制作好的素材和這些特殊標(biāo)記結(jié)合,并且通過手機(jī)屏幕展示出來給你。

「注:上圖為原始圖和人臉打標(biāo),下圖為根據(jù)標(biāo)記作出的處理,很有趣是不是」

2.現(xiàn)階段有哪些技術(shù)服務(wù)

目前計(jì)算機(jī)視覺主要應(yīng)用的技術(shù)有哪些:

  • 基于人臉識(shí)別:人臉檢測(cè),人臉對(duì)比,人臉查找…
  • 基于文字識(shí)別:通用文字,網(wǎng)絡(luò)圖片,卡證文字…
  • 基于圖像識(shí)別:圖片審核,圖像識(shí)別,圖像搜索…

2.1?人臉識(shí)別

剛才FaceU激萌例子,想必大家對(duì)人臉識(shí)別有了一點(diǎn)概念,接下來我們看一看有人臉識(shí)別的應(yīng)用技術(shù)。

人臉檢測(cè):想要做人臉識(shí)別,首先得讓計(jì)算機(jī)知道哪些是人臉,所以人臉的檢測(cè)是對(duì)后續(xù)人臉分析和處理的基礎(chǔ)。通過對(duì)圖片掃描和判斷,在圖片用藍(lán)色的矩形標(biāo)示出來。

人臉配準(zhǔn):定位并返回人臉五官與輪廓的關(guān)鍵點(diǎn)坐標(biāo)位置,關(guān)鍵點(diǎn)包括人臉輪廓、眼睛、眉毛、嘴唇以及鼻子輪廓,最多會(huì)返回106個(gè)點(diǎn)。

人臉屬性:對(duì)圖像的一系列基礎(chǔ)處理之后,通過一系列的算法,來識(shí)別人臉的屬性,例如:

這部分是我覺得最有意思的一部分,可以給我們?cè)O(shè)計(jì)產(chǎn)品和服務(wù)很多想象空間。

目前針對(duì)人臉屬性的識(shí)別可以提供以下這些參數(shù)供大家使用:

雖然目前提供有意思的參數(shù)很多,但很多的屬性識(shí)別的準(zhǔn)確性還有待提高

但這并不影響一部分商用價(jià)值或產(chǎn)品化,重點(diǎn)是我要為誰(shuí)解決什么問題,容錯(cuò)程度是多少。

后續(xù)我們來再來仔細(xì)聊一聊這個(gè)話題。

人臉特征提取, 人臉驗(yàn)證,人臉檢索,人臉活體檢測(cè)

因?yàn)檫@些是一個(gè)系列的解決方案,所以這一部分我放在一起來說明。

現(xiàn)在AI市場(chǎng)上最熱的幾個(gè)領(lǐng)域:智慧安防,智慧金融,智慧商業(yè),都是運(yùn)用這一系列的解決方案。

最基礎(chǔ)的是人臉特征提取,將人臉轉(zhuǎn)化為一段固定長(zhǎng)度的數(shù)值。

人臉的驗(yàn)證就是把兩個(gè)人臉的數(shù)值,做比較,然后計(jì)算出一個(gè)相似度。

人臉檢索就是根據(jù)人臉特征的數(shù)值,在大量的數(shù)據(jù)庫(kù)里檢索,找出最相似的人。

活體識(shí)別是一個(gè)提高安全性的機(jī)制,用于遠(yuǎn)程識(shí)別攝像頭的對(duì)象是真人,而不是一張照片。

2.2?文字識(shí)別

文字識(shí)別的就很好理解了,識(shí)別圖中的文字信息,并且返回文字所在的位置,語(yǔ)言,內(nèi)容,目前正常場(chǎng)景的識(shí)別率可以達(dá)到90%。

應(yīng)對(duì)不同的場(chǎng)景,又延伸出了很多服務(wù),比如:

  • 證件識(shí)別:身份證,駕駛證,護(hù)照等等,格式化之后可以直接利用其中的信息。
  • 網(wǎng)絡(luò)圖片文字識(shí)別:針對(duì)那些藝術(shù)字,特殊設(shè)計(jì)的文字。
  • 其他:表格文字識(shí)別,票據(jù)文字識(shí)別,可以根據(jù)圖片內(nèi)的格式輸出。

2.3?圖像識(shí)別

圖像識(shí)別這個(gè)范圍很大了,需要看具體有價(jià)值應(yīng)用場(chǎng)景,通常識(shí)別物體:家居物品,動(dòng)物,植物,品牌Logo,菜品…等等。

識(shí)別的邏輯跟人臉識(shí)別類似,但是需要龐大的訓(xùn)練數(shù)據(jù),來教計(jì)算機(jī)認(rèn)識(shí)這些物體,學(xué)習(xí)的越多,識(shí)別率會(huì)越高,但目前可以提供服務(wù)就是一些好理解的,特征明顯的:貓,狗,電視,沙發(fā),玫瑰,汽車,火車…等等。

但如果需要一些特殊場(chǎng)景下的識(shí)別,比如車輛的定損,奢侈品包包的真假判斷,需要再一個(gè)垂直領(lǐng)域進(jìn)行深度學(xué)習(xí)和特殊數(shù)據(jù)的大量訓(xùn)練了。

3.?落地中會(huì)遇到哪些問題和挑戰(zhàn)

前面介紹了很多計(jì)算視覺在于應(yīng)用上的技術(shù)實(shí)現(xiàn),但想闡述一些核心觀點(diǎn):

  • 對(duì)于PM來講,人工智能也只是工具,最終要的還是是理解行業(yè),理解用戶,理解痛點(diǎn)。
  • 對(duì)于技術(shù)本身,我們更多是理解技術(shù)邊界,在自己應(yīng)用場(chǎng)景之下,知道什么可行,什么不可行。
  • 另外就是項(xiàng)目中的實(shí)戰(zhàn)經(jīng)驗(yàn),確保產(chǎn)品可以落地,并且真的可以產(chǎn)生價(jià)值的策略

3.1?應(yīng)用場(chǎng)景不同,技術(shù)成熟度也不同

對(duì)于不同的應(yīng)用場(chǎng)景來說,所需技術(shù)成熟是不同的,舉個(gè)例子:

  • 像FaceU激萌,分析視頻物體推薦購(gòu)買,當(dāng)前的技術(shù)就比較“成熟”。
  • 而自動(dòng)駕駛,智慧醫(yī)療,當(dāng)前的技術(shù)就“不夠成熟”

其一因?yàn)?b>標(biāo)準(zhǔn)不一樣,人工智能本身是一個(gè)概率學(xué)的事情:

  • 就算FaceU人臉的坐標(biāo)有偏差,拍攝環(huán)境惡劣,用戶也可以接受并配合調(diào)整。
  • 就算視頻里的物體識(shí)別不夠精準(zhǔn),推薦錯(cuò)了品牌,廣告投放商和服務(wù)商也可以接受,因?yàn)橐呀?jīng)有較大幅度提升。
  • 但是如果自動(dòng)駕駛在某種沒有被訓(xùn)練的惡劣環(huán)境下,出了嚴(yán)重的交通事故,是不能接受的。
  • 醫(yī)療也一樣,計(jì)算機(jī)推薦通過影像識(shí)別腫瘤在這個(gè)位置,從這里下刀后發(fā)現(xiàn)計(jì)算機(jī)判斷的并不正確,也是不能被接受的。

3.2?準(zhǔn)確率提升依賴大量的數(shù)據(jù),但光數(shù)據(jù)量大是不夠的

產(chǎn)品要開始落地之前,首先考慮圖像一類相關(guān)數(shù)據(jù)是否是打通的,是否可供機(jī)器訓(xùn)練,因?yàn)闄C(jī)器學(xué)習(xí)的數(shù)據(jù)越多準(zhǔn)確率越高。

但是只是提供訓(xùn)練數(shù)據(jù)就可以了嗎?實(shí)際的情況并不是的,因?yàn)椋?b>訓(xùn)練的數(shù)據(jù)未必真實(shí)符合情況的數(shù)據(jù)

舉個(gè)例子你就明白了:

而且準(zhǔn)確率并不是產(chǎn)品落地的唯一評(píng)價(jià)指標(biāo),還有誤報(bào)率,實(shí)時(shí)監(jiān)控尋找某個(gè)罪犯。

結(jié)果在同一個(gè)時(shí)間,多個(gè)地點(diǎn)都發(fā)現(xiàn)了這個(gè)“罪犯”,這顯然是不夠“成熟”的。

3.3?實(shí)際場(chǎng)景還會(huì)有諸多問題

等產(chǎn)品進(jìn)入到實(shí)際場(chǎng)景中測(cè)試時(shí)候,就會(huì)發(fā)現(xiàn)還有很多無(wú)法預(yù)料的事情。

  • 真實(shí)場(chǎng)景硬件的性能是否可以達(dá)到訓(xùn)練時(shí)候的效果?攝像頭清晰度?硬件計(jì)算能力?網(wǎng)絡(luò)信號(hào)和速度?
  • 識(shí)別算法是否可以應(yīng)用到所有場(chǎng)景?信噪比?對(duì)比度?是否遮擋?運(yùn)動(dòng)狀態(tài)的會(huì)模糊?不同天氣的光線差異?角度不同產(chǎn)生影響?
  • 還有就是非常現(xiàn)實(shí)的成本問題,也就是看ROI,想用機(jī)器人通過圖像識(shí)別來替代人,那要看投入產(chǎn)出比,還得是否可以規(guī)?;?。

綜上所述,這里就需要PM 的能力,比如MVP,A/B test模型,數(shù)據(jù)分析,以及對(duì)于自己的行業(yè)以及用戶深刻理解,洞察行業(yè)的本質(zhì)。

4.?產(chǎn)品落地方向的一些思路

PM+ AI +X的落地方向上的話,借助這幾個(gè)點(diǎn)來思考:

  • 哪些可以大幅提升效率,減少人工成本,且可以規(guī)?;?/li>
  • 哪些是剛需,但是用戶體驗(yàn)很差,尤其是時(shí)效性有很大要求的。
  • 哪些是以前做不到的事情,但是AI可以做到的,比如:自動(dòng)駕駛。

目前計(jì)算機(jī)視覺的應(yīng)用和方向:

但具體要做什么產(chǎn)品,就沒必要在這了YY了,是否可落地是需要每個(gè)PM對(duì)于行業(yè)的深刻洞察,歡迎你隨時(shí)帶著行業(yè)的痛點(diǎn)和經(jīng)驗(yàn)來一起討論AI具體落地方法。

目前計(jì)算機(jī)視覺在技術(shù)上僅是在部分領(lǐng)域識(shí)別具有產(chǎn)品落地和商用的價(jià)值,但是對(duì)于圖像的理解和描述還處于研究階段,是一個(gè)需要突破的瓶頸,讓AI可以更深的正確的理解圖像內(nèi)容后,才能產(chǎn)生正確有效的行為,才真的“智能”,這也是我目前最感興趣的,也是最有價(jià)值的地方。

以上就是我的「產(chǎn)品經(jīng)理的人工智能認(rèn)知體系」系列的第二篇學(xué)習(xí)筆記,歡迎留言交流。

 

作者:蘭楓「微信公號(hào):藍(lán)風(fēng)GO @LanFengTalk」,前騰訊游戲,新浪微博PM,Elex產(chǎn)品總監(jiān),8年的游戲,社交,O2O等產(chǎn)品相關(guān)經(jīng)驗(yàn),連續(xù)創(chuàng)業(yè)者。

本文由 @蘭楓 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自PEXELS,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 謝謝這么慷慨地把自己學(xué)習(xí)和研究的成果,整理成邏輯清楚表述明白的文章分享出來??焖僮x完您的幾篇文章,讓我這個(gè)初入門的AI小白有了大概了解,不至于太不知所措。

    來自北京 回復(fù)
  2. 之前您推薦的幾本書,人工智能:一種現(xiàn)代的方法,好深?yuàn)W難懂啊,有沒有適合沒有基礎(chǔ)的人學(xué)習(xí)和了解人工智能的?

    來自北京 回復(fù)
  3. 計(jì)算機(jī)視覺和語(yǔ)音識(shí)別出了技術(shù)上現(xiàn)有的瓶頸和成本的限制外,主要是不知道用戶在什么場(chǎng)景下最需要什么功能。感覺現(xiàn)在使我們根據(jù)技術(shù)去創(chuàng)造用戶的需求,而不是有了強(qiáng)剛需后,用更先進(jìn)的技術(shù)去解決問題。老師的三篇文章真贊,希望持續(xù)更新~

    來自北京 回復(fù)
    1. 說的非常對(duì),我曾經(jīng)思考過,對(duì)于「技術(shù) vs 需求」,到底是先有雞還是先有蛋的問題,最后我的思考一定是現(xiàn)有的需求(或者概念),才有的技術(shù)突破,然后這個(gè)一定是螺旋式的上升的。另外對(duì)于我們PM來講,重要的是如何利用AI技術(shù)在自己的行業(yè)里確確實(shí)實(shí)的創(chuàng)造價(jià)值,讓技術(shù)轉(zhuǎn)變而產(chǎn)品落地。在PM領(lǐng)域里,我認(rèn)為重要的不是拿AI當(dāng)初PM職業(yè)分之,而是每個(gè)PM都要了解AI的思想和技術(shù)紅線,讓AI成為一種解決問題的思維和手段。

      來自北京 回復(fù)
    2. 老師,最近看東西發(fā)現(xiàn)有人這樣說:現(xiàn)在AI產(chǎn)品經(jīng)理的不合格不在于他不會(huì)運(yùn)用技術(shù),而是他不會(huì)從AI的思維去理解如何運(yùn)用技術(shù)。他說AI的產(chǎn)品經(jīng)理更需要的是哲學(xué)上的認(rèn)知和道德上的至上,而不是現(xiàn)在單純的設(shè)計(jì)產(chǎn)品的流程和思路。老師怎么看,對(duì)于AI產(chǎn)品的設(shè)計(jì)和運(yùn)用需遵循哪些原則?
      另外最近看了一部電影叫《弗蘭克和他的機(jī)器人》里面的機(jī)器人在設(shè)計(jì)時(shí)沒有考慮道德和哲學(xué)層面的問題,設(shè)置的程序就是為改善服務(wù)主人的身體健康而可執(zhí)行任何行動(dòng)和人物,最后幫助主人行竊。如果以后的AI產(chǎn)品也全部垂直了,專門的照顧病人健康的機(jī)器人,專門看孩子的機(jī)器人,如何進(jìn)行機(jī)器人的規(guī)則統(tǒng)一和防止道德上的缺陷?
      老師,思路有些亂,還希望您有時(shí)間能幫我解答一下~

      來自北京 回復(fù)
    3. 先聊AI思維,我是這么理解的,產(chǎn)品經(jīng)理最重要是發(fā)揮技術(shù)的價(jià)值,讓產(chǎn)品落地產(chǎn)生商業(yè)化的價(jià)值。所以要從確切實(shí)際能落地解決問題的角度來思考,所以AI的技術(shù)會(huì)運(yùn)用當(dāng)然好,不會(huì)運(yùn)用找到會(huì)AI技術(shù)的搭檔也行,所以AI的思維本身比懂技術(shù)更重要,而了解技術(shù)的邊界目的是能清晰的判斷產(chǎn)品的可行性,而不是只談“概念”,一個(gè)錯(cuò)誤的判斷很可能會(huì)對(duì)產(chǎn)品和項(xiàng)目有致命的打擊,這也就是MVP為什么這么重要的原因。

      對(duì)于AI產(chǎn)品的設(shè)計(jì)和運(yùn)用需遵循哪些原則?這個(gè)我無(wú)法給出很好的答案,因?yàn)锳I是技術(shù),相當(dāng)于蒸汽機(jī),電力,計(jì)算機(jī)這類的基礎(chǔ)設(shè)施,你需要理解了機(jī)器學(xué)習(xí),大數(shù)據(jù),自然語(yǔ)言理解,計(jì)算機(jī)視覺,語(yǔ)音等相關(guān)技術(shù)初步認(rèn)知之后,再結(jié)合自己產(chǎn)品來思考這個(gè)問題。

      擁有自我意識(shí)的機(jī)器人距離我們還很遠(yuǎn),產(chǎn)品經(jīng)理確實(shí)要看到未來可行性,但是我個(gè)人認(rèn)為,現(xiàn)在的AI技術(shù)還只是根據(jù)人設(shè)定的來進(jìn)行工作,比如阿爾法狗。 而且近些年現(xiàn)在AI只是在「認(rèn)知」上作出了突破進(jìn)展,而「理解」還是瓶頸,畢竟深度神經(jīng)網(wǎng)絡(luò)只是對(duì)于人腦的粗糙理解運(yùn)用,所以“談道德”這個(gè)還為之過早。

      最后要清晰明白自己學(xué)習(xí)AI的目的是什么,AI領(lǐng)域太大了,概念也太多了,沒有一個(gè)主線,很容易走偏。

      因?yàn)榕紶柌派先巳硕际钱a(chǎn)品經(jīng)理,如果還有疑問歡迎加我的微信公號(hào):藍(lán)風(fēng)GO (@LanFengTalk) 留言繼續(xù)交流

      來自北京 回復(fù)
    4. 好的,老師我加一下您的微信公眾號(hào),就像您說的AI的領(lǐng)域太大了,我現(xiàn)在不是學(xué)偏了,是都不知道如何下手,如何學(xué)~

      來自北京 回復(fù)
  4. 藍(lán)風(fēng)老師您好,我是電子工業(yè)出版社編輯,我對(duì)AI時(shí)代產(chǎn)品經(jīng)理的認(rèn)知與技能方面的內(nèi)容非常感興趣,不知是否方便加您微信,以便和您請(qǐng)教?我的微信/手機(jī)是13391987752

    來自北京 回復(fù)
  5. 很通俗易懂的系列文章 會(huì)一直跟進(jìn)的

    來自廣東 回復(fù)
  6. 建議親后面涉及到比較專業(yè)的時(shí)候還是用專業(yè)術(shù)語(yǔ),然后再以加上自己的解釋。不然的話有時(shí)候全用自己的話概括會(huì)有偏頗,會(huì)容易引起小白對(duì)這個(gè)概念的理解。

    來自廣東 回復(fù)
    1. 非常感謝建議,這個(gè)確實(shí)需要注意??煞裰更c(diǎn)一下,哪幾個(gè)地方會(huì)容易有偏頗 ?

      來自北京 回復(fù)
  7. 我的從0開始是自己自學(xué)跑了一個(gè)keras tensorflow的實(shí)例

    來自河北 回復(fù)
    1. 一開始我也躍躍欲試用Python寫幾個(gè)案例,這樣確實(shí)有助于理解機(jī)器學(xué)習(xí)。但是對(duì)于N年沒有寫過代碼的我來說太慢了,深入機(jī)器學(xué)習(xí)還是從算法上切入快一點(diǎn),需要時(shí)候再用一下,這樣就不用花時(shí)間先去了解tensorflow。這樣對(duì)我自己來講,可以快一些用AI思維幫現(xiàn)有業(yè)務(wù)去落地一些產(chǎn)品。

      來自北京 回復(fù)