OCR技術(shù)用于在線身份認(rèn)證的運(yùn)營(yíng)效果分析
編輯導(dǎo)語(yǔ):當(dāng)前線上身份認(rèn)證,主要依賴的仍是OCR技術(shù),即光學(xué)字符識(shí)別。然而依托于這一技術(shù)的在線身份認(rèn)證服務(wù)過(guò)程中,用戶流失可能十分嚴(yán)重,這是為什么呢?本篇文章里,作者就OCR技術(shù)應(yīng)用于在線身份認(rèn)證過(guò)程中的運(yùn)營(yíng)效果做了分析,一起來(lái)看一下。
一、線下的身份認(rèn)證:我國(guó)擁有著全球領(lǐng)先的方式
我們?cè)阢y行柜臺(tái)辦理金融業(yè)務(wù)、入住酒店、高鐵通行、營(yíng)業(yè)廳購(gòu)買(mǎi)手機(jī)SIM 卡號(hào)時(shí),必然需要現(xiàn)場(chǎng)身份認(rèn)證,也就是核驗(yàn)?zāi)愕纳矸葑C和本人信息。我們只需要掏出身份證,放置在指定的身份證識(shí)讀設(shè)備上感應(yīng)一下就可以了,十分便利和安全。
2004年,我國(guó)推出二代身份證并大力普及,時(shí)至今日應(yīng)該所有國(guó)民都已統(tǒng)一更換了。二代身份證中內(nèi)嵌有一枚國(guó)密智能芯片,加密存儲(chǔ)了公民的所有基本信息(姓名、性別、民族、出生日期、身份證號(hào)、證件照片、家庭住址、簽發(fā)機(jī)關(guān)、有效期,合稱為“身份九要素”)。這些加密信息需要通過(guò)專(zhuān)用的身份證識(shí)讀設(shè)備來(lái)解碼讀取,從而同時(shí)保證了公民信息的安全和有效。
二代身份證以及身份證識(shí)讀設(shè)備的普及發(fā)展,讓我們?cè)谛枰獙?shí)名認(rèn)證的各種場(chǎng)合享受到了極大的便利。相比全球其他國(guó)家,我國(guó)這種人手一張高密安全證件的方式是極其先進(jìn)的,是我們?nèi)缃衲軌蛳硎苁澜珙I(lǐng)先的便捷生活的堅(jiān)實(shí)基礎(chǔ)。
試想,就算有了世界第一的高鐵技術(shù),如果沒(méi)有“刷身份證即可通行”的配套保障,仍然需要每個(gè)人去柜臺(tái)排隊(duì)買(mǎi)票、再到閘機(jī)驗(yàn)票方可上車(chē)的話,那何來(lái)效率提升呢?有過(guò)慘痛排隊(duì)經(jīng)驗(yàn)的人,誰(shuí)也不想再回到那個(gè)時(shí)代吧?
從技術(shù)底層來(lái)說(shuō),我們的二代身份證是一張由國(guó)家統(tǒng)一制作的高密級(jí)安全芯片,發(fā)到每個(gè)人手上也就賦予了這個(gè)公民可以“自證身份”的權(quán)利。
在這方面,我國(guó)的管理理念和技術(shù)是非常先進(jìn)的,拿現(xiàn)在流行的話來(lái)說(shuō),就是很早就采用了去中心化的思維和技術(shù),把信任和便捷最大程度地放到了每個(gè)人的手中,只要你手持合法的身份證就可以完全代表你自己,而不需要其他中心化的數(shù)據(jù)庫(kù)來(lái)驗(yàn)證。
作為對(duì)比,美國(guó)等老牌西方國(guó)家,至今仍然在用的是基于“社會(huì)保障號(hào)碼(SSN)”的政府?dāng)?shù)據(jù)庫(kù)驗(yàn)證方式,也就是說(shuō),你其實(shí)是無(wú)法獨(dú)立驗(yàn)證自身“你是誰(shuí)”的,你所能做的僅僅是記住自己的姓名和 SSN 號(hào)碼,然后請(qǐng)求政府?dāng)?shù)據(jù)庫(kù)來(lái)校驗(yàn)這些信息是否正確,如果網(wǎng)絡(luò)不好、或者中間過(guò)程出了差錯(cuò)(比如警察作惡、數(shù)據(jù)庫(kù)臨時(shí)故障等),你就無(wú)法證明“你是誰(shuí)”了。
這兩種方式不能說(shuō)就一定誰(shuí)比誰(shuí)更好了,而是在不同的場(chǎng)景中各有利弊,因此我國(guó)其實(shí)也具備中心化數(shù)據(jù)庫(kù)驗(yàn)證的公民管理方式。但我們相對(duì)獨(dú)有的“安全證件”方式,已經(jīng)在國(guó)民經(jīng)濟(jì)場(chǎng)景中發(fā)揮越來(lái)越大的保駕護(hù)航作用,構(gòu)成了我國(guó)境內(nèi)特有的便利生活服務(wù)。
國(guó)外近些年其實(shí)也注意到了這個(gè)差異,比如法國(guó)等歐洲大陸國(guó)家就已經(jīng)在加速發(fā)放他們的國(guó)民身份證了,而美國(guó)在很多服務(wù)場(chǎng)景中其實(shí)在推行和使用內(nèi)含芯片的護(hù)照來(lái)補(bǔ)充傳統(tǒng) SSN 機(jī)制的不足。
二、線上的身份認(rèn)證:我們與全球其他國(guó)家一樣,仍處于發(fā)展早期,主要依賴于 OCR 技術(shù)
OCR (Optical Character Recognition,光學(xué)字符識(shí)別),是指電子設(shè)備(例如掃描儀或數(shù)碼相機(jī))檢查紙上打印的字符,通過(guò)檢測(cè)暗、亮的模式確定其形狀,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過(guò)程。主要用于將紙質(zhì)文檔中的印刷體文字轉(zhuǎn)換成計(jì)算機(jī)能夠處理的文本格式,再供文字處理軟件進(jìn)一步編輯加工。
身份證雖好,卻在我們的生活越來(lái)越多得轉(zhuǎn)入線上服務(wù)的過(guò)程中遇到了障礙:手機(jī)可不是專(zhuān)用身份證識(shí)讀設(shè)備,如何才能讀取身份證中的安全芯片信息,從而完成實(shí)時(shí)的身份認(rèn)證呢?這里很明顯需要一套全新的技術(shù),但是時(shí)間不等人,怎么才能服務(wù)當(dāng)下就已經(jīng)如火如荼的數(shù)字經(jīng)濟(jì)呢?
當(dāng)前主流的方式是 OCR。
通過(guò)手機(jī)攝像頭來(lái)拍攝身份證照片,再通過(guò) OCR 技術(shù)來(lái)提取身份證表面上印刷的文字信息,最終再通過(guò)中心化的政府?dāng)?shù)據(jù)庫(kù)來(lái)驗(yàn)證這些信息是否正確,若成功則留存用戶的身份證影印件以作后續(xù)審計(jì)使用。
將這些流程拼接在一起,就構(gòu)成了完整的 OCR 身份認(rèn)證服務(wù),如果還有特殊需要就再加上人臉識(shí)別比對(duì)。這就構(gòu)成了我們?cè)凇笆謾C(jī)無(wú)法直接識(shí)讀身份證芯片”的過(guò)渡時(shí)期的標(biāo)準(zhǔn)解決方案,也是當(dāng)前我們?cè)诰€開(kāi)展各類(lèi)需要身份認(rèn)證的業(yè)務(wù)的基礎(chǔ)。
從技術(shù)底層來(lái)講,我們暫時(shí)放棄了中國(guó)相對(duì)獨(dú)有的“去中心化公民自證”特色,轉(zhuǎn)而使用“中心化政府?dāng)?shù)據(jù)庫(kù)”的驗(yàn)證方式,因此在這一領(lǐng)域,我們與西方國(guó)家的很多公司就形成了同頻,可以相互借鑒而共同提升技術(shù),但也共同承受這個(gè)技術(shù)帶來(lái)的缺陷和管理風(fēng)險(xiǎn),比如:OCR技術(shù)的識(shí)別準(zhǔn)確率、人臉識(shí)別技術(shù)的準(zhǔn)確率、個(gè)人隱私數(shù)據(jù)的保護(hù)、政府?dāng)?shù)據(jù)庫(kù)的合法合理使用等。
客觀來(lái)說(shuō),我國(guó)在技術(shù)方面絲毫不落后,但是在數(shù)據(jù)的管理和保護(hù)層面則差強(qiáng)人意,事實(shí)上造成了國(guó)內(nèi)的身份數(shù)據(jù)滿天飛的亂象。隨著近期我國(guó)《數(shù)據(jù)安全法》、《個(gè)人信息保護(hù)法》、《網(wǎng)絡(luò)數(shù)據(jù)安全管理?xiàng)l例》的發(fā)布和落實(shí),這方面后續(xù)應(yīng)該會(huì)有顯著的改善。
接下來(lái),本文不糾結(jié)于 OCR 身份認(rèn)證服務(wù)中的技術(shù)和管理問(wèn)題,而是轉(zhuǎn)向這個(gè)服務(wù)的運(yùn)營(yíng)效率問(wèn)題,即:業(yè)務(wù)流程中引入 OCR 身份認(rèn)證服務(wù)的用戶留存和轉(zhuǎn)化效果。
三、OCR身份認(rèn)證服務(wù)的用戶轉(zhuǎn)化漏斗:不算不知道,算了嚇一跳的驚人損耗
我們來(lái)詳細(xì)拆解下OCR身份認(rèn)證服務(wù)中的關(guān)鍵步驟:
1)從用戶處獲得身份證圖片,可能從相冊(cè)里獲取,也可能直接調(diào)用手機(jī)攝像頭實(shí)時(shí)拍攝。由于個(gè)人將身份證照片存儲(chǔ)在相冊(cè)中的安全風(fēng)險(xiǎn)實(shí)在太大,且該方式極其容易造假,因此現(xiàn)在以手機(jī)銀行為代表的業(yè)務(wù)方已禁止使用。本文中只分析第二種獲取方式:即調(diào)用手機(jī)攝像頭實(shí)時(shí)拍攝身份證。
2)從身份證圖片中解析出身份要素信息;若無(wú)法解析,則回到步驟 1。
3)后臺(tái)發(fā)送給某供應(yīng)商提供的“政府?dāng)?shù)據(jù)庫(kù)”云端驗(yàn)證接口,進(jìn)行信息驗(yàn)證。若不通過(guò),則回到步驟 1。
對(duì)應(yīng)的轉(zhuǎn)化漏斗圖如下:
步驟一的用戶流失率是最嚴(yán)重的,約達(dá) 40%:
1)若用戶的身份證不在身邊,將無(wú)法完成本流程。這部分用戶約占 20%。要徹底解決的話需要全新的技術(shù)解決方案,比如前些年公安部在試點(diǎn)創(chuàng)新的 eID、CTID 等,但目前來(lái)看距離全面的實(shí)用化都還很遠(yuǎn),因此可以簡(jiǎn)單認(rèn)為短期內(nèi)無(wú)解。
2)若拍攝效果不好,也將無(wú)法完成本流程。這部分用戶也達(dá)到20%。一方面是受光線、拍攝角度、拍攝穩(wěn)定性、攝像頭質(zhì)量等外界客觀影響,導(dǎo)致攝像頭始終無(wú)法鎖定聚焦到身份證,另一方面則是因?yàn)轫?yè)面設(shè)計(jì)的易用性問(wèn)題、軟件bug或網(wǎng)絡(luò)不穩(wěn)定等原因,導(dǎo)致用戶在過(guò)程中放棄。這方面應(yīng)該可以有很大的優(yōu)化提升空間。
步驟二的用戶流失率彈性很大,約 10%~30%:
可以簡(jiǎn)單地認(rèn)為,該步驟的用戶流失率就幾乎等同于 OCR 識(shí)別結(jié)果的錯(cuò)誤率。因?yàn)榘凑诊L(fēng)控原則,這一步驟是不能讓用戶手動(dòng)修正的,否則就失去了身份認(rèn)證的意義了,因此一旦信息識(shí)別錯(cuò)誤最終就只能回到上一步重新來(lái)過(guò)。
流失率彈性的關(guān)鍵,主要取決于是否需要識(shí)別住址信息。
若僅需要識(shí)別姓名、身份證號(hào)碼乃至身份證有效期,現(xiàn)在業(yè)內(nèi)成熟的 OCR 算法已可做到 85%以上的正確率,最好的據(jù)說(shuō)能做到 90%。然而如果要準(zhǔn)確識(shí)別出身份證上的住址,OCR 的技術(shù)難度則幾何級(jí)別增長(zhǎng),經(jīng)常會(huì)識(shí)別出非法字符。幸運(yùn)的是,目前除了金融、出行、用工等少數(shù)場(chǎng)景外,對(duì)識(shí)別住址的需求還并不普遍。
(地址識(shí)別為非法字符)
步驟三的用戶流失率,約 5%-10%:
通常來(lái)說(shuō),只要OCR在第二步中正確識(shí)別出身份證信息,就一定可以順利通過(guò)“政府?dāng)?shù)據(jù)庫(kù)”的校驗(yàn)。
但實(shí)際上,受限于自身的業(yè)務(wù)風(fēng)控規(guī)則(如限制未成年人、特殊年齡的人、黑名單用戶等,通常約 5%),以及第三方供應(yīng)商的數(shù)據(jù)源和服務(wù)穩(wěn)定性等原因(通常不到 5%),會(huì)導(dǎo)致部分用戶無(wú)法通過(guò)。
其中,因業(yè)務(wù)風(fēng)控規(guī)則而產(chǎn)生的用戶損耗是無(wú)法避免的,但對(duì)第三方供應(yīng)商的質(zhì)量把控則是可以優(yōu)中選優(yōu)。
綜上所述,完整的 OCR 身份認(rèn)證服務(wù)做下來(lái),用戶流失可能會(huì)高達(dá) 60%(1-0.6*0.7*0.9),極限優(yōu)化后也會(huì)高達(dá)30%(1-0.8*0.9*0.95),是不是會(huì)很驚人?
業(yè)務(wù)還沒(méi)真正開(kāi)始做呢,1/3的用戶已經(jīng)跑去火星了,這還怎么活?
雖然可以通過(guò)其他方式把用戶拉回來(lái)再試一次,但終究是個(gè)讓人害怕的運(yùn)營(yíng)黑洞。必須要解決才好。
從關(guān)鍵因素來(lái)看,需要解決的要點(diǎn)在于:優(yōu)化拍攝身份證照片這個(gè)過(guò)程的不確定性,和OCR 識(shí)別信息(特別是大段地址信息)的準(zhǔn)確度。如果這兩個(gè)過(guò)程能夠做到無(wú)損,則整個(gè)服務(wù)流程的用戶流失率可以降低到75%(1-0.8*1*0.95),而且都是由于純粹的客觀因素而造成的,不會(huì)引發(fā)用戶的不滿,或者說(shuō)對(duì)于有價(jià)值的用戶,不會(huì)產(chǎn)生無(wú)謂的損耗。
那這兩個(gè)過(guò)程解決起來(lái)的難度有多大呢?筆者現(xiàn)在還在請(qǐng)教專(zhuān)業(yè)人士,但就目前所聞,并不算樂(lè)觀。
四、還有一些值得注意的潛在風(fēng)險(xiǎn):黑天鵝事件隨時(shí)會(huì)到來(lái)
做業(yè)務(wù)不可能完全零風(fēng)險(xiǎn),這是當(dāng)然的。但我們需要知曉風(fēng)險(xiǎn)的可能來(lái)源,并提前做好一定的準(zhǔn)備,特別是那些涉及到合規(guī)層面的隱患。絕大部分公司在實(shí)際設(shè)計(jì)和使用 OCR 身份認(rèn)證的流程中,普遍存在如下兩種潛在風(fēng)險(xiǎn):
1. OCR 的識(shí)別是否在使用“SaaS 公有云服務(wù)”?
若采購(gòu)并本地化部署OCR 軟件,那就不存在本條所說(shuō)的隱患。但是因?yàn)閮r(jià)格較高,絕大部分公司還是傾向于選擇第三方供應(yīng)商提供的、按次付費(fèi)的 SaaS 云服務(wù),這就存在“個(gè)人信息保護(hù)”的風(fēng)險(xiǎn)隱患了。
將用戶的身份證圖片傳輸給這些第三方供應(yīng)商,是否應(yīng)該征得用戶的明確同意呢?但若在流程中加入提示并等待用戶選擇的話,留存轉(zhuǎn)化率是否會(huì)更低呢?其實(shí),將用戶信息提交給某某供應(yīng)商提供的“政府?dāng)?shù)據(jù)庫(kù)”去校驗(yàn),也是同樣的問(wèn)題。
2. 是否考慮過(guò)對(duì)身份證圖片的驗(yàn)真呢?
OCR 技術(shù)說(shuō)穿了畢竟只是對(duì)圖片的識(shí)別和計(jì)算,如果這個(gè)圖片本身就是被惡意偽造的,那 OCR 身份認(rèn)證流程完全是不設(shè)防的(這里我們不考慮再加入人臉識(shí)別技術(shù)作為輔助驗(yàn)證手段,一方面這必然會(huì)帶來(lái)更高的成本和更低的用戶轉(zhuǎn)化,另一方面人臉識(shí)別有自身的適用場(chǎng)景和安全風(fēng)險(xiǎn)問(wèn)題會(huì)將本文的主題給帶歪)。
然而又該如何在整個(gè)流程中加入反欺詐呢?很不幸,非常之難。如果惡意分子偽造一張身份證,單純使用 OCR 身份認(rèn)證流程是無(wú)法辨別出來(lái)的,而這種偽造成本也極其低,比如:通過(guò)覆膜將身份證上的地址和有效期改掉,或者頭像換掉。
因此,對(duì)于金融、政務(wù)、租賃、出行、用工等領(lǐng)域的公司,需要慎重考慮自身被惡意分子盯上的風(fēng)險(xiǎn)。
注意,以上兩個(gè)潛在風(fēng)險(xiǎn)都是由于“身份認(rèn)證”業(yè)務(wù)本身的特殊性所帶來(lái)的,而非 OCR 技術(shù)所源生的。
但是,隨著數(shù)字經(jīng)濟(jì)的盛行,國(guó)際國(guó)內(nèi)對(duì)傳統(tǒng)業(yè)務(wù)的合規(guī)監(jiān)管也必將延伸到在線業(yè)務(wù)中來(lái),比如 KYC(Know Your Customer)就是通行的準(zhǔn)則,不僅要識(shí)別認(rèn)證出正常的用戶,更要防御住少數(shù)惡意分子造成的巨大破壞。
在此背景下,OCR身份認(rèn)證服務(wù)需要考慮的,就不僅僅是流程的順暢了。
五、展望未來(lái):在線身份認(rèn)證過(guò)程的用戶轉(zhuǎn)化效果還能提高么?
在本文的結(jié)尾部分,我們可以大膽做出一些“必然”的預(yù)測(cè)和與之相關(guān)的疑問(wèn):
1)在線身份認(rèn)證在今后的數(shù)字經(jīng)濟(jì)中,重要性和必要性只會(huì)越來(lái)越強(qiáng),因此當(dāng)前的用戶轉(zhuǎn)化效果是絕對(duì)無(wú)法滿足業(yè)務(wù)需要的,必須要大幅提升才行。但是這個(gè)重任,是否一定由 OCR 身份認(rèn)證來(lái)?yè)?dān)當(dāng)呢?
2)KYC 等監(jiān)管要求的提升,其實(shí)是與近年來(lái)國(guó)際國(guó)內(nèi)的網(wǎng)絡(luò)欺詐事件顯著提升有直接關(guān)系的,因此目前看來(lái)只會(huì)進(jìn)一步增強(qiáng)。是否有合適的產(chǎn)品,能做到讓各方都滿意的身份防偽造呢?
3)我國(guó)極具特色的二代身份證安全芯片,在移動(dòng)互聯(lián)網(wǎng)已經(jīng)如此盛行的時(shí)代真的就無(wú)法發(fā)揮其優(yōu)勢(shì)么?我們認(rèn)為,這點(diǎn)必然會(huì)解決突破的,屆時(shí)我國(guó)的在線身份認(rèn)證,應(yīng)該可以走出另一條更新、更好的方式來(lái)!
如果大家有更好的想法,可以在評(píng)論區(qū)告訴我。
本文由 @鯨 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自 Unsplash,基于CC0協(xié)議
關(guān)于對(duì)身份證圖片的驗(yàn)真有幾點(diǎn)討論:
– 偽造身份證圖片的情況:(1)僅照片是偽造的,姓名和身份證號(hào)真實(shí)存在;(2)除照片是偽造外,姓名、身份證號(hào)也是偽造的
– 針對(duì)情況(2)可以使用公安部提供的注銷(xiāo)驗(yàn)真接口,通過(guò)【姓名+身份證號(hào)】,校驗(yàn)當(dāng)前公民信息是否存在,不需要增加的用戶操作
– 針對(duì)情況(1)是需要依賴人臉識(shí)別的,先進(jìn)行人臉圖像采集、活體檢測(cè)、人像比對(duì)(身份證圖像和人臉圖像)輸出高質(zhì)量人臉圖像,再使用公安部的相關(guān)接口,通過(guò)【姓名+身份證號(hào)+人臉圖像】校驗(yàn)當(dāng)前公民信息存在。且通過(guò)活體檢測(cè)基本能保證當(dāng)前為用戶本人操作。