實(shí)戰(zhàn)分享:如何規(guī)劃一款人臉識(shí)別考勤門鎖產(chǎn)品
本文通過一款人臉識(shí)別考勤門禁產(chǎn)品,分享初做AI產(chǎn)品過程中的思考和總結(jié),特別對(duì)人臉識(shí)別性能指標(biāo)做了詳細(xì)的說明。
目錄
- 為什么是人臉識(shí)別
- 確定需求和場(chǎng)景
- 整體方案設(shè)計(jì)
- 產(chǎn)品開發(fā)
- 產(chǎn)品測(cè)試-人臉識(shí)別指標(biāo)詳解
- 總結(jié)
隨著AI技術(shù)興起的浪潮,各種傳統(tǒng)硬件不斷被智能化,以提高效率和體驗(yàn)??v觀市面上的AI硬件產(chǎn)品,無非有兩種:
- 一種是傳統(tǒng)硬件企業(yè)以硬件為主進(jìn)行AI賦能,比如智能門鎖、智能冰箱等,核心還是硬件;
- 另一種就是互聯(lián)網(wǎng)企業(yè)以提供AI服務(wù)和內(nèi)容為主的載體終端,比如智能音箱、翻譯機(jī)等,核心是AI服務(wù)能力和內(nèi)容;
硬件不同于軟件,做硬件成本很高,但是隨著市場(chǎng)不斷擴(kuò)大,競(jìng)爭(zhēng)也越來越大,產(chǎn)品開始同質(zhì)化導(dǎo)致價(jià)格不斷降低,利潤也越來越低。所以對(duì)于傳統(tǒng)硬件公司來說,一方面需要引入新的AI元素對(duì)產(chǎn)品進(jìn)行創(chuàng)新打造差異化,另一方面也要不斷滿足用戶新的需求,保持市場(chǎng)地位。
互聯(lián)網(wǎng)公司在軟件服務(wù)上有明顯的優(yōu)勢(shì)——擅長AI技術(shù)研發(fā)以及設(shè)備管理系統(tǒng)、業(yè)務(wù)管理系統(tǒng)、APP等平臺(tái)開發(fā),海量數(shù)據(jù)收集和內(nèi)容提供,具有很強(qiáng)的產(chǎn)品運(yùn)營能力和營銷意識(shí)。戰(zhàn)略上作為軟件服務(wù)的延伸,互聯(lián)網(wǎng)企業(yè)也可能會(huì)開發(fā)硬件產(chǎn)品,打造新的端到端的閉環(huán)。
做為創(chuàng)業(yè)者,直接從硬件入手門檻非常高,硬件涉及到ID結(jié)構(gòu)、組裝生產(chǎn)、供應(yīng)鏈管理和銷售渠道等方面,需要長期的摸索積累;在這個(gè)機(jī)會(huì)稍縱即逝的關(guān)口,這顯然不合適。所以,不妨將自己定位為一個(gè)AI技術(shù)解決方案和服務(wù)商,為傳統(tǒng)硬件企業(yè)賦能,這樣既能貼合傳統(tǒng)硬件企業(yè)轉(zhuǎn)型升級(jí)的迫切需求,又能避開跟大型互聯(lián)網(wǎng)企業(yè)的直接競(jìng)爭(zhēng)。
本文通過針對(duì)200人以內(nèi)企業(yè)的人臉識(shí)別考勤門禁一體機(jī)方案,分享一下關(guān)于做AI產(chǎn)品的一些思考和總結(jié)。
一、為什么是人臉識(shí)別
人臉識(shí)別,是基于人的臉部特征信息進(jìn)行身份識(shí)別的一種生物識(shí)別技術(shù)。說到生物識(shí)別,通常應(yīng)用在智能門禁中的其他生物識(shí)別技術(shù)主要包括指紋、靜脈、虹膜、聲紋。對(duì)比如下圖所示:
目前消費(fèi)者對(duì)智能門禁的關(guān)注順序如下:首先是安全性;然后是長期穩(wěn)定性(5~10年)、便利性、準(zhǔn)確性和成本;其他因素還有外觀、品牌等。綜合上表可以看出,在生物識(shí)別上,人臉識(shí)別具有很大的優(yōu)勢(shì)。
目前市面上關(guān)于人臉識(shí)別考勤一體機(jī)的價(jià)格主要集中在千元左右,靜脈識(shí)別和虹膜識(shí)雖然在安全性上很有優(yōu)勢(shì),但便利性不夠、成本太高;聲紋識(shí)別準(zhǔn)確性中等,且容易受到噪音干擾,因此也很少選擇這種方案。
目前市面所有的智能考勤門禁一體機(jī),指紋識(shí)別基本上都是標(biāo)配,相比與人臉識(shí)別來說,指紋不夠安全也不夠便利,而且對(duì)小孩和老人的手指支持不好。
綜上所述,相比其他生物識(shí)別方式,人臉識(shí)別非常有優(yōu)勢(shì),而且隨著算法的提升和活體檢測(cè)等技術(shù)的補(bǔ)充,人臉識(shí)別在安全性和穩(wěn)定性上會(huì)越來越高,這塊趨勢(shì)將越來也明顯。
這里普及一下人臉識(shí)別的幾個(gè)特點(diǎn):
- 非侵?jǐn)_性:人臉識(shí)別無需被識(shí)別者主動(dòng)配合采集設(shè)備,在不干擾人們的正常行為情況下就能較好地達(dá)到識(shí)別效果。
- 非接觸性:人臉圖像信息的采集不需要用戶與設(shè)備直接接觸。
- 并發(fā)性:在實(shí)際應(yīng)用場(chǎng)景下可以進(jìn)行多個(gè)人臉的分揀、判斷及識(shí)別。
- 友好性:通過人臉識(shí)別身份的方法與人類的習(xí)慣一致,人和機(jī)器都可以使用人臉圖片進(jìn)行識(shí)別。
- 便捷性:采集設(shè)備簡(jiǎn)單,使用快捷。常見攝像頭在在數(shù)秒內(nèi)即可完成圖像采集。
通過人臉識(shí)別,能夠在保證安全性的前提下,快速地同時(shí)對(duì)多人進(jìn)行識(shí)別,完成快速解鎖通行和排隊(duì)考勤等應(yīng)用場(chǎng)景,體驗(yàn)非常好
二、確定需求和場(chǎng)景
需求分析是產(chǎn)品經(jīng)理的基本功,做需求分析的時(shí)候一定要結(jié)合具體的場(chǎng)景。
比如我們的人臉識(shí)別考勤門禁一體機(jī),主要是用于200人以內(nèi)的中小公司,一般安裝在公司大門口,使用時(shí)間早晚比較集中,使用對(duì)象包括員工和HR等。不同的場(chǎng)景對(duì)需求的具體滿足方式提出了不同的要求,也就是對(duì)產(chǎn)品方案的要求。
一般客戶會(huì)提出大概的需求,產(chǎn)品經(jīng)理需要仔細(xì)考慮每一個(gè)需求描述,結(jié)合自身對(duì)競(jìng)品、場(chǎng)景和技術(shù)的了解,設(shè)計(jì)產(chǎn)品方案,并反復(fù)與客戶溝通。比如客戶提出了如下需求:
- 人臉識(shí)別 數(shù)量:不低于200PCS用戶
- 刷卡功能 數(shù)量:200組
- 密碼功能 數(shù)量:50組
- 顯示屏 2.4 TFT
- 低功耗:待機(jī)功耗小于50ua
- 喚醒和對(duì)比時(shí)間小于1.5秒
- 采用4節(jié)干電池供電
- 常規(guī)門鎖功能
- 內(nèi)置藍(lán)牙模塊
- 手機(jī)APP開門
- 考勤功能
- 動(dòng)態(tài)密碼功能 10分鐘內(nèi)1次有效 通過手機(jī)生成
- 時(shí)效密碼功能(10組)通過手機(jī)下發(fā)
- ………
當(dāng)收集到很多需求時(shí),建議首先對(duì)問題進(jìn)行分類并根據(jù)經(jīng)驗(yàn)和分析進(jìn)行補(bǔ)全,比如分為嵌入式硬件需求、嵌入式軟件需求、APP需求、管理后臺(tái)需求和其他需求,如下圖所示:
這里只是做一下簡(jiǎn)單的介紹,實(shí)際做產(chǎn)品需求分析時(shí)候會(huì)有大量的溝通和細(xì)節(jié)上的決策,涉及到用戶訪談、競(jìng)品分析、場(chǎng)景分析、卡諾分析等多種復(fù)雜的過程。
三、整體方案設(shè)計(jì)
作為AI賦能方案商,我們的專注點(diǎn)通常在人臉識(shí)別嵌入式模塊和互聯(lián)網(wǎng)平臺(tái)服務(wù)上,而外觀結(jié)構(gòu)、生產(chǎn)組裝以及認(rèn)證銷售都由傳統(tǒng)廠商負(fù)責(zé)。
目前關(guān)于人臉識(shí)別考勤門禁一體機(jī)主要有兩種方案:
一是終端采集到人臉照片后將圖片上傳到云端服務(wù)器,由服務(wù)器對(duì)照片進(jìn)行實(shí)時(shí)處理,并將處理結(jié)果返回給終端設(shè)備,這種方案對(duì)網(wǎng)絡(luò)的依賴比較強(qiáng),同時(shí)處理能力也比較強(qiáng)。
二是將訓(xùn)練好的人臉識(shí)別模型部署到終端設(shè)備上,設(shè)備采集到人臉照片后直接處理,只將處理結(jié)果反饋到云端,這種方案不依賴外部環(huán)境,但對(duì)設(shè)備本身的計(jì)算能力有較高的要求。
隨著終端設(shè)備計(jì)算能力的不斷提升和成本下降,第二種方案在體驗(yàn)和成本上的優(yōu)勢(shì)將越來越大。系統(tǒng)架構(gòu)如下圖所示:
人臉識(shí)別考勤門鎖系統(tǒng)主要有以下幾個(gè)組成部分:
1. 終端設(shè)備:由雙目攝像頭或其他如3D Tof攝像頭(圖像采集、活體檢測(cè))、補(bǔ)光板(適應(yīng)昏暗環(huán)境)、AI芯片(提供模型運(yùn)行算力)、MCU(業(yè)務(wù)系統(tǒng))和觸摸屏幕(人機(jī)交互界面)等關(guān)鍵元器件和機(jī)械零件等組成。
2. 固件:內(nèi)置了人臉檢測(cè)、圖片預(yù)處理、特征提取、特征對(duì)比、活體檢測(cè)、人臉識(shí)別等算法模型SDK和門鎖應(yīng)用程序,其中機(jī)器學(xué)習(xí)算法可在外掛的AI芯片上進(jìn)行加速運(yùn)算,應(yīng)用程序在MCU上進(jìn)行運(yùn)算;更好的方案是算法模型和應(yīng)用程序都運(yùn)行在集成了AI加速單元的SoC芯片上。
3. IOT平臺(tái):通常擁有AI能力的硬件會(huì)通過wifi或2/3/4G無線網(wǎng)絡(luò)等方式聯(lián)網(wǎng),與云端服務(wù)器進(jìn)行通信。因?yàn)榻K端設(shè)備數(shù)量眾多,且比較分散,也不會(huì)實(shí)時(shí)聯(lián)網(wǎng),所以通過IOT平臺(tái)對(duì)設(shè)備進(jìn)行管理,包括設(shè)備管理、生命周期管理、固件更新、數(shù)據(jù)存儲(chǔ)、可視化監(jiān)控等。同時(shí)IOT作為管道負(fù)責(zé)設(shè)備端與云端Sass系統(tǒng)之間的數(shù)據(jù)交互。
4. 門鎖Saas系統(tǒng):人臉識(shí)別考勤門鎖產(chǎn)品的客戶通常為企業(yè)用戶,一般會(huì)提供一個(gè)多租戶的Sass管理后臺(tái),以滿足用戶門鎖管理、報(bào)警管理、員工管理、考勤管理等復(fù)雜的需求。
5. 小程序:因App開發(fā)和維護(hù)成本較高,采用小程序?qū)崿F(xiàn)輕量級(jí)的門鎖Saas系統(tǒng)中的功能,方便管理員進(jìn)行移動(dòng)辦公管理。
6. 人臉識(shí)別平臺(tái):包括人臉數(shù)據(jù)、標(biāo)注平臺(tái)和模型訓(xùn)練平臺(tái),將訓(xùn)練好的模型打包成SDK移植到芯片上供業(yè)務(wù)系統(tǒng)進(jìn)行調(diào)用。
四、產(chǎn)品開發(fā)
人臉識(shí)別考勤門禁產(chǎn)品方案開發(fā)主要涉及到三個(gè)方面,分別是:
1. 人臉識(shí)別模塊:包括人臉數(shù)據(jù)集準(zhǔn)備、人臉數(shù)據(jù)標(biāo)注、服務(wù)器端訓(xùn)練模型,模型SDK封裝和模型遷移到終端環(huán)境等;
2. 嵌入式軟硬件:人臉識(shí)別相關(guān)芯片、補(bǔ)光板、活體檢測(cè)、防撬傳感器、屏幕等硬件功能模塊和人臉注冊(cè)識(shí)別解鎖流程以及設(shè)備端用戶管理等軟件功能模塊;
3. 互聯(lián)網(wǎng)平臺(tái):主要指設(shè)備連接和通信管理的IOT平臺(tái),輕量級(jí)的小程序管理端以及完整功能的考勤門禁Saas平臺(tái)。
4.1 人臉識(shí)別模塊開發(fā)
人臉識(shí)別平臺(tái)通常包括人臉數(shù)據(jù)庫、標(biāo)注數(shù)據(jù)庫和標(biāo)注工具、模型訓(xùn)練和測(cè)試平臺(tái)。
通常我們可以采用公開的已經(jīng)標(biāo)注好的人臉數(shù)據(jù)集進(jìn)行模型訓(xùn)練,為了實(shí)現(xiàn)更好的模型效果,也很有必要建立自有的人臉數(shù)據(jù)庫,并通過標(biāo)注平臺(tái)對(duì)數(shù)據(jù)進(jìn)行標(biāo)注。然后通過Opencv、Dlib、Tensorflow、Cafe等平臺(tái)對(duì)人臉數(shù)據(jù)集和標(biāo)注文件進(jìn)行不斷訓(xùn)練和測(cè)試,從而得出符合預(yù)期的人臉檢測(cè)、特征提取、特征對(duì)比、活體檢測(cè)等模型。
整個(gè)人臉識(shí)別平臺(tái)大概如下圖所示:
模型訓(xùn)練好,通常還需要對(duì)模型進(jìn)行裁剪遷移到實(shí)際運(yùn)行環(huán)境中并封裝成SDK供嵌入式業(yè)務(wù)系統(tǒng)進(jìn)行調(diào)用,其中還涉及到模型在真實(shí)環(huán)境中參數(shù)的調(diào)整和優(yōu)化。一般的人臉識(shí)別流程如下圖所示:
關(guān)于人臉識(shí)別流程,網(wǎng)上有很多資料,寫的非常詳細(xì),具體查看:
1)《人臉識(shí)別產(chǎn)品設(shè)計(jì),AI產(chǎn)品經(jīng)理需要了解的實(shí)戰(zhàn)干貨》
2)《人臉識(shí)別 | AI產(chǎn)品經(jīng)理需要了解的CV通識(shí)(二)》
3) AMiner 第十三期研究報(bào)告《2018人臉識(shí)別研究報(bào)告》
人臉采集:通過攝像頭實(shí)時(shí)采集人臉圖片,采集人臉數(shù)據(jù)時(shí)需要注意一下關(guān)鍵相應(yīng)因素:
1. 圖像大?。喝四槇D像過小會(huì)影響識(shí)別效果,人臉圖像過大會(huì)影響識(shí)別速度。非專業(yè)人臉識(shí)別攝像頭常見規(guī)定的最小識(shí)別人臉像素為60*60或100*100以上。在規(guī)定的圖像大小內(nèi),算法更容易提升準(zhǔn)確率和召回率。圖像大小反映在實(shí)際應(yīng)用場(chǎng)景就是人臉離攝像頭的距離。
2. 圖像分辨率:越低的圖像分辨率越難識(shí)別。圖像大小綜合圖像分辨率,直接影響攝像頭識(shí)別距離?,F(xiàn)4K攝像頭看清人臉的最遠(yuǎn)距離是10米,7K攝像頭是20米。
3. 光照環(huán)境:過曝或過暗的光照環(huán)境都會(huì)影響人臉識(shí)別效果??梢詮臄z像頭自帶的功能補(bǔ)光或?yàn)V光平衡光照影響,也可以利用算法模型優(yōu)化圖像光線。
4. 模糊程度:實(shí)際場(chǎng)景主要著力解決運(yùn)動(dòng)模糊,人臉相對(duì)于攝像頭的移動(dòng)經(jīng)常會(huì)產(chǎn)生運(yùn)動(dòng)模糊。部分?jǐn)z像頭有抗模糊的功能,而在成本有限的情況下,考慮通過算法模型優(yōu)化此問題。
5. 遮擋程度:五官無遮擋、臉部邊緣清晰的圖像為最佳。而在實(shí)際場(chǎng)景中,很多人臉都會(huì)被帽子、眼鏡、口罩等遮擋物遮擋,這部分?jǐn)?shù)據(jù)需要根據(jù)算法要求決定是否留用訓(xùn)練。
6. 采集角度:人臉相對(duì)于攝像頭角度為正臉最佳。但實(shí)際場(chǎng)景中往往很難抓拍正臉。因此算法模型需訓(xùn)練包含左右側(cè)人臉、上下側(cè)人臉的數(shù)據(jù)。工業(yè)施工上攝像頭安置的角度,需滿足人臉與攝像頭構(gòu)成的角度在算法識(shí)別范圍內(nèi)的要求。
人臉檢測(cè):人臉圖像采集完成后需要通過“人臉檢測(cè)”技術(shù)判斷圖像中是否存在人臉。如果存在人臉則繼續(xù)流程,否則重新采集圖像。
人臉圖像預(yù)處理:系統(tǒng)獲取的原始圖像由于受到各種條件的限制和隨機(jī)干擾,往往不能直接使用,必須在圖像處理的早期階段對(duì)它進(jìn)行圖像預(yù)處理。所謂圖像預(yù)處理就是基于人臉檢測(cè)結(jié)果,對(duì)圖像進(jìn)行灰度矯正、噪聲過濾等處理,并最終服務(wù)于特征提取的過程。
人臉圖像特征提?。?/strong>人臉特征提取就是對(duì)人臉進(jìn)行特征建模將一張人臉圖像轉(zhuǎn)化為一串固定長度的數(shù)值的過程。輸入是“一張人臉圖像(帶人臉坐標(biāo)框)”,經(jīng)過人臉關(guān)鍵點(diǎn)定位后,輸出人臉相應(yīng)的一個(gè)數(shù)值串(特征)。
人臉圖像匹配與識(shí)別:特征提取后,便可以任意兩個(gè)人臉特征進(jìn)行比對(duì),得到投特征之間的相似度。通過設(shè)定一個(gè)閾值,當(dāng)相似度超過這一閾值,則把匹配得到的結(jié)果輸出。人臉驗(yàn)證、人臉識(shí)別、人臉檢索和人臉聚類都是在人臉特征比對(duì)的基礎(chǔ)上加一些策略來實(shí)現(xiàn)。相對(duì)人臉特征提取過程,單次的人臉比對(duì)耗時(shí)極短,幾乎可以忽略;
人臉活體檢測(cè):人臉活體(FaceLiveness)是判斷人臉圖像是來自真人還是來自攻擊假體(照片、視頻、換臉、面具、遮擋以及屏幕翻拍等)的方法。和前面所提到的人臉技術(shù)相比,人臉活體不是一個(gè)單純算法,而是一個(gè)問題的解法。這個(gè)解法將用戶交互和算法緊密結(jié)合,不同的交互方式對(duì)應(yīng)于完全不同的算法。
4.2 嵌入式開發(fā)
關(guān)于嵌入式軟件硬件開發(fā)流程具體可參考我之前的一篇文章《【從軟到硬】做智能硬件的6個(gè)月,全流程詳解》,這里再詳細(xì)說明一下實(shí)際開發(fā)過程中可能會(huì)遇到的問題和需要注意的地方。
1. 要選擇合適分辨率的雙目攝像頭,考慮AI芯片對(duì)圖像的處理能力;同時(shí)需要調(diào)教攝像頭,以便采集到質(zhì)量更高的圖像,并配合模型算法,調(diào)整模型參數(shù)。
2. 考慮盡量減少電池更換的頻率,延長續(xù)航時(shí)間,降低設(shè)備的功耗,當(dāng)門鎖面前無人經(jīng)過的時(shí)候盡量保持休眠狀態(tài),可通過單獨(dú)的傳感器做設(shè)備激活,比如紅外傳感器,檢測(cè)到有人經(jīng)過時(shí),再啟動(dòng)設(shè)備上的其他模塊。
3. 考慮設(shè)備所處的光線環(huán)境,針對(duì)強(qiáng)光環(huán)境通過濾光片進(jìn)行過濾,針對(duì)弱光環(huán)境,要能夠及時(shí)通過補(bǔ)光板進(jìn)行補(bǔ)光。
4. 考慮設(shè)備的安全性,當(dāng)有人撬鎖時(shí),能夠檢測(cè)出來并及時(shí)通知到用戶,比如在設(shè)備內(nèi)部加入光感傳感器,見光后表示設(shè)備被拆解;或者在設(shè)備關(guān)鍵結(jié)合部加入運(yùn)動(dòng)傳感器,感受到部件分離時(shí)進(jìn)行報(bào)警。
5. 補(bǔ)充第4條,考慮有人通過照片等方式對(duì)門鎖進(jìn)行破解或陌生人非法開鎖的情況,對(duì)可疑人員進(jìn)行拍照捕捉,并及時(shí)通知到管理人員。
6. 選擇合適的設(shè)備通訊協(xié)議,比如MQTT比TCP能夠支持更大的并發(fā)量,盡量減少設(shè)備與服務(wù)端的連接,一方面減少資源消耗,另一方面也可以降低設(shè)備功耗。
7. 預(yù)先定義好人臉識(shí)別模塊和業(yè)務(wù)模塊的數(shù)據(jù)協(xié)議,以及業(yè)務(wù)模塊與服務(wù)端的數(shù)據(jù)協(xié)議,方便模塊化開發(fā),以及模塊之間的對(duì)接,提高整體的開發(fā)效率。
4.3 互聯(lián)網(wǎng)平臺(tái)開發(fā)
這里的互聯(lián)網(wǎng)平臺(tái)主要包括IOT平臺(tái)、考勤門鎖Saas平臺(tái)和小程序,在涉及到硬件的互聯(lián)網(wǎng)端開發(fā)的時(shí)候,區(qū)別于純軟件產(chǎn)品,功能夠用就行了;切忌過度開發(fā),既增加研發(fā)成本,也可能開發(fā)出來一堆不實(shí)用的功能。
IOT平臺(tái)有很多開源平臺(tái)可以選擇,比如github上人氣最高的ThingsBoard就是個(gè)不錯(cuò)的選擇,功能齊全,架構(gòu)簡(jiǎn)單,可視化組件豐富,對(duì)于中小型企業(yè)應(yīng)用綽綽有余了。
考勤門鎖Saas平臺(tái)主要考慮如何接收設(shè)備數(shù)據(jù)并進(jìn)行展示,以及針對(duì)用戶的雙向管理和考勤功能。小程序是為管理員提供的輔助管理客戶端,主要用戶消息接收,功能上應(yīng)當(dāng)盡量簡(jiǎn)化,主要功能模塊如下圖所示(部分):
五、產(chǎn)品測(cè)試
產(chǎn)品測(cè)試除了常規(guī)的嵌入式軟硬件測(cè)試、互聯(lián)網(wǎng)平臺(tái)功能測(cè)試和整個(gè)系統(tǒng)聯(lián)調(diào)測(cè)試;還要著重強(qiáng)調(diào)一下人臉識(shí)別算法的測(cè)試,網(wǎng)上有很多介紹關(guān)于人臉識(shí)別性能的指標(biāo),但是都不好理解,這里通過具體數(shù)據(jù)舉例詳細(xì)說明一下。
通常評(píng)價(jià)一個(gè)人臉識(shí)別算法的好壞分兩個(gè)方面:識(shí)別率(準(zhǔn)確率、召回率、誤識(shí)率、拒識(shí)率和ROC曲線等)和識(shí)別速度。
為了便于理解,這里先舉一個(gè)人臉識(shí)別門鎖的模型測(cè)試的例子,然后再對(duì)相關(guān)指標(biāo)進(jìn)行說明會(huì)更加清晰。人臉識(shí)別模型測(cè)試方法為比較兩個(gè)人臉照片是否為同一人,假設(shè)如下:
假設(shè)一:測(cè)試數(shù)據(jù)集中有100個(gè)人,每個(gè)人10張人臉照片,那么正樣本(同一個(gè)人的照片兩兩組合)數(shù)量為 100 * (10 * 9 / 2)= 4500個(gè);負(fù)樣本(不同人的照片兩兩組合)數(shù)量為 100 * 99 /2 *10 * 10 = 495000個(gè)。
假設(shè)二:判斷兩張圖片特征相似度時(shí),閾值為80,超過80則判斷為同一人;低于80則判斷為不同人。
假設(shè)三:測(cè)試結(jié)果如下圖所示,其中P表示同一人,N表示不同人,T表示預(yù)測(cè)結(jié)果為真,N表示預(yù)測(cè)結(jié)果為假。
5.1 準(zhǔn)確率(Accuracy)
準(zhǔn)確率是指我們的模型預(yù)測(cè)正確的結(jié)果所占的比例。準(zhǔn)確率的定義如下:
Accuracy = (TP+TN) / (TP+TN+FP+FN)
上面的例子中可以計(jì)算出 :
模型的準(zhǔn)確率 = (500+490000)/(4500 + 495000) = 98.2%
這個(gè)結(jié)果足以說明,我們的模型非常不錯(cuò),絕大部分樣本預(yù)測(cè)正確。但是仔細(xì)一看會(huì)發(fā)現(xiàn)問題,我們4500個(gè)正樣本中只有500個(gè)被正確預(yù)測(cè),大部分(另外4000個(gè))正樣本沒有成功預(yù)測(cè)出來;相反在495000個(gè)負(fù)樣本中只有5000個(gè)沒有被預(yù)測(cè)出來,模型關(guān)于正負(fù)樣本的預(yù)測(cè)結(jié)果差異巨大。
造成這一結(jié)果的原因在于正負(fù)樣本數(shù)據(jù)集極度不平衡,如果只是預(yù)測(cè)負(fù)樣本,那么這個(gè)模型或許還可以,但人臉識(shí)別更需要對(duì)正樣本的預(yù)測(cè),所以我們還需要關(guān)注召回率和精確率。
5.2 召回率與拒識(shí)率
召回率(recall,TPR,命中率):在所有正類別樣本中,被正確識(shí)別為正類別的比例。從數(shù)學(xué)上講,召回率的公式如下:
Recall = TP/(TP+FN)
上面的例子中可以計(jì)算出:
模型的召回率 = 500 /4500 = 11.11%
由此可見此模型人臉識(shí)別成功率很低。
拒識(shí)率(False Reject Rate,F(xiàn)RR)與召回率相反,是指在所有正類別樣本中,被錯(cuò)誤識(shí)別為負(fù)類別的比例。比如張三拿著李四的手機(jī)人臉解鎖成功了,公式如下:
FRR = FN/(FN+TP)= 1-TPR
上面的例子中可以計(jì)算出:
模型的拒識(shí)率= 4000/(4000 + 500)= 88.89%
也就是說大部分將會(huì)被人臉識(shí)別門鎖拒絕訪問。
5.3 誤識(shí)率(FAR)
誤識(shí)率(False Accept Rate,F(xiàn)AR,F(xiàn)PR,假報(bào)警率,錯(cuò)判率)是指將他人誤認(rèn)為指定人員的概率,公式如下:
FPR=FP/(FP+TN)
上面的例子中我們可以計(jì)算出:
模型的誤報(bào)率 = 5000 /(5000 + 490000)= 1.01%
也就是說在一個(gè)人臉識(shí)別門鎖上,100個(gè)陌生人中,有一個(gè)可以識(shí)別通過,存在很大的安全隱患。
誤識(shí)率(FAR)決定了系統(tǒng)的安全性,召回率(FRR)決定了系統(tǒng)的易用程度。在實(shí)際中,F(xiàn)AR對(duì)應(yīng)的風(fēng)險(xiǎn)遠(yuǎn)遠(yuǎn)高于FRR,因此生物識(shí)別系統(tǒng)中,會(huì)將FAR設(shè)置為一個(gè)非常低的范圍,如萬分之一甚至百萬分之一,在FAR固定的條件下,F(xiàn)RR低于5%,這樣的系統(tǒng)才有實(shí)用價(jià)值。
5.4 ROC曲線
如上面例子中的判斷兩個(gè)圖片是否相似的閾值設(shè)置為 80,大于這個(gè)值的實(shí)例劃歸為正類,小于這個(gè)值則劃到負(fù)類中。
如果減小閥值,減到70,固然能識(shí)別出更多的正類,也就是提高了識(shí)別出的正例占所有正例的比類,即召回率(TPR);但同時(shí)也將更多的負(fù)實(shí)例當(dāng)作了正實(shí)例,即提高了誤識(shí)率(FPR)。為了形象化這一變化,我們引入ROC曲線——ROC,受試者工作特征曲線,是比較兩個(gè)分類模型好壞的可視化工具。
(a)橫軸為誤識(shí)率FPR,縱軸為召回率TPR,理想情況下,TPR應(yīng)該接近1,F(xiàn)PR應(yīng)該接近0。
ROC曲線上的每一個(gè)點(diǎn)對(duì)應(yīng)于一個(gè)閾值,對(duì)于一個(gè)模型,每個(gè)閾值下會(huì)有一個(gè)TPR和FPR。比如閾值最大時(shí),TP=FP=0,對(duì)應(yīng)于原點(diǎn);閾值最小時(shí),TN=FN=0,對(duì)應(yīng)于右上角的點(diǎn)(1,1)。
(b)隨著閾值不斷增加,TP和FP都減小,TPR和FPR也減小,ROC點(diǎn)向左下移動(dòng)。
ROC曲線怎么看?曲線越陡峭,曲線上的點(diǎn)越接近(0,1),表示檢測(cè)器性能越好。
5.5 識(shí)別速度
識(shí)別一副人臉圖像的時(shí)間,包括人臉圖像的采集、檢測(cè)、預(yù)處理、特征提取到匹配和識(shí)別出來為止的總時(shí)間。除了總體時(shí)間的計(jì)算意外,其中人臉檢測(cè)的時(shí)間可以作為一個(gè)重要的衡量標(biāo)準(zhǔn),并可以直觀的感受出來。
人臉檢測(cè)速度是從采集圖像完成到人臉檢測(cè)完成的時(shí)間,通常用幀率(frame-per-second,F(xiàn)PS)來表示。時(shí)間越短,檢測(cè)模型效果越好。
這里也有一個(gè)問題,常見的人臉檢測(cè)算法基本是一個(gè)“掃描”加“判別”的過程;即算法在圖像范圍內(nèi)掃描,再逐個(gè)判定候選區(qū)域是否是人臉的過程,因此人臉檢測(cè)算法的計(jì)算速度會(huì)受圖像尺寸(VGA640*480)、圖像中人臉大小(80*80)和數(shù)量、圖像背景復(fù)雜度等因素影響。
通常在測(cè)試一個(gè)人臉檢測(cè)速度時(shí),通過控制輸入圖像越小、圖像中人臉越少、圖像中人臉越大、圖像背景越簡(jiǎn)單(比如白底)和使用越高性能的處理器,使得檢測(cè)算法速度越快。
六、總結(jié)
以上是自己在人臉識(shí)別考勤門鎖產(chǎn)品的規(guī)劃設(shè)計(jì),和研發(fā)過程中對(duì)人臉識(shí)別AI產(chǎn)品的個(gè)人理解和總結(jié)。
技術(shù)是產(chǎn)品存在的基礎(chǔ),在AI技術(shù)還沒有完全統(tǒng)一和標(biāo)準(zhǔn)化的時(shí)候,作為產(chǎn)品經(jīng)理需要對(duì)AI技術(shù)有一定的了解。最基本的要求是要知道什么事情AI能做,什么事情AI不能做,對(duì)技術(shù)的能力有邊界感,不然很難順利的將用戶需求轉(zhuǎn)化為產(chǎn)品需求;然后更進(jìn)一步地知道什么好做,什么不好做,以便更好的進(jìn)行開發(fā)量的評(píng)估和模塊的劃分。
在與技術(shù)人員進(jìn)行需求溝通的過程中,對(duì)于不明白的技術(shù)一定要多請(qǐng)教,不能讓技術(shù)問題限制了對(duì)產(chǎn)品的思考;如果對(duì)技術(shù)有一定了解,也需要克制自己,不要告訴技術(shù)應(yīng)該怎么去實(shí)現(xiàn)。產(chǎn)品經(jīng)理永遠(yuǎn)都是一個(gè)提出問題和分析問題的人,而不是去解決問題的人。
參考資料
關(guān)于人臉識(shí)別流程,網(wǎng)上有很多資料,寫的非常詳細(xì),感謝前人的努力。
1)《人臉識(shí)別產(chǎn)品設(shè)計(jì),AI產(chǎn)品經(jīng)理需要了解的實(shí)戰(zhàn)干貨》
2)《人臉識(shí)別 | AI產(chǎn)品經(jīng)理需要了解的CV通識(shí)(二)》
3)AMiner 第十三期研究報(bào)告《2018人臉識(shí)別研究報(bào)告》
作者:Ocean,公眾號(hào):pm_know_practice
本文由 @Ocean 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
很厲害!
指標(biāo)那里好像有錯(cuò)誤 TN和FN反了
牛批!很全面!