午夜电影网日韩欧美1区2区,色久悠悠婷婷综合在线亚洲,久久午夜夜伦鲁鲁片不卡

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線(xiàn)下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

開(kāi)通會(huì)員

發(fā)布

注冊(cè) | 登錄

OCR在NLP場(chǎng)景中的應(yīng)用

燕然未勒

2020-01-19

2 評(píng)論 13459 瀏覽 53 收藏

对未来感到迷茫？起点课堂的导师将为你提供专业的职业发展规划指导，帮你明确方向、设定目标，让你在产品经理的道路上，每一步都走得清晰而坚定。

在NLP的產(chǎn)品體系中，OCR是關(guān)于文檔、文件處理的基礎(chǔ)步驟，是無(wú)法回避和繞開(kāi)的。

關(guān)于OCR的基礎(chǔ)知識(shí)，也就成了NLP產(chǎn)品經(jīng)理必不可少的知識(shí)儲(chǔ)備了——只有產(chǎn)品詳細(xì)地了解了關(guān)于OCR的處理原理和步驟，才能充分發(fā)揮現(xiàn)有技術(shù)的優(yōu)勢(shì)，規(guī)避其弱點(diǎn)，創(chuàng)造出更大的價(jià)值。

什么是OCR？

OCR （Optical Character Recognition，光學(xué)字符識(shí)別）是指電子設(shè)備（例如掃描儀或數(shù)碼相機(jī)）檢查紙上打印的字符，通過(guò)檢測(cè)暗、亮的模式確定其形狀，然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過(guò)程。

即，針對(duì)印刷體字符，采用光學(xué)的方式將紙質(zhì)文檔中的文字轉(zhuǎn)換成為黑白點(diǎn)陣的圖像文件，并通過(guò)識(shí)別軟件將圖像中的文字轉(zhuǎn)換成文本格式，供文字處理軟件進(jìn)一步編輯加工的技術(shù)。

那么既然是通過(guò)掃描，或者攝像的方式獲取，就會(huì)遇到很多諸如背景復(fù)雜、分辨率低等情況，在沒(méi)有針對(duì)OCR技術(shù)實(shí)質(zhì)性的了解下，有的朋友都會(huì)認(rèn)為OCR識(shí)別，是一件非常easy的事情，不值得進(jìn)行討論。

事實(shí)上，自然環(huán)境下的OCR要面臨、要解決的問(wèn)題還是相當(dāng)多的，例如：

背景復(fù)雜；
存在如底紋、水印、底線(xiàn)、框線(xiàn)；
加蓋印章干擾疊加；
圖像對(duì)比度低；
文字傾斜、模糊；
污跡、磨損；
防偽標(biāo)識(shí)；
字體種類(lèi)繁多；
字的筆畫(huà)深淺，印刷受墨多寡等等情況。

通常情況下，衡量一個(gè)OCR系統(tǒng)性能好壞的主要指標(biāo)有：拒識(shí)率、誤識(shí)率、識(shí)別速度、用戶(hù)界面的友好性，產(chǎn)品的穩(wěn)定性，易用性及可行性等。

傳統(tǒng)OCR的處理過(guò)程

下面，我們通過(guò)一張圖來(lái)簡(jiǎn)要了解一下傳統(tǒng)OCR的處理過(guò)程：

圖像預(yù)處理

預(yù)處理一般包括諸如傾斜校正、灰度化、圖像降噪、二值化處理等等。

二值化：

二值化就是讓圖像的像素點(diǎn)矩陣中的每個(gè)像素點(diǎn)的灰度值為0（黑色）或者255（白色），也就是讓整個(gè)圖像呈現(xiàn)只有黑和白的效果。在灰度化的圖像中灰度值的范圍為0~255，在二值化后的圖像中的灰度值范圍是0或者255。

二值化的做法一般分為以下幾種：

版面分析：是將掃描得到的圖像，將文本按照不同的屬性劃分出區(qū)域塊。對(duì)于各個(gè)不同的區(qū)域塊，如：橫排正文、豎排正文、表格、圖片等。
字符切割：對(duì)圖像中的文本進(jìn)行字符級(jí)的切割，需要注意的是字符粘連等問(wèn)題。
特征提?。簩?duì)字符圖像提取關(guān)鍵特征并降維，用于后續(xù)的字符識(shí)別算法。
字符識(shí)別：依據(jù)特征向量，基于模版匹配分類(lèi)法或深度神經(jīng)網(wǎng)絡(luò)分類(lèi)法，識(shí)別出字符。版面恢復(fù)：識(shí)別原文檔的排版，按照原排版的格式將識(shí)別結(jié)果輸出。
后處理：引入一些糾錯(cuò)機(jī)制或者語(yǔ)言模型，針對(duì)一些形近字進(jìn)行修正。

當(dāng)然，上述傳統(tǒng)的OCR識(shí)別方法已經(jīng)有點(diǎn)兒過(guò)時(shí)了，現(xiàn)在更流行的做法是基于深度學(xué)習(xí)的端到端的文字識(shí)別，即我們不需要顯式加入文字切割這個(gè)環(huán)節(jié)，而是將文字識(shí)別轉(zhuǎn)化為序列學(xué)習(xí)問(wèn)題。

雖然輸入的圖像尺度不同，文本長(zhǎng)度不同，但是經(jīng)過(guò)DCNN和RNN后，在輸出階段經(jīng)過(guò)一定的翻譯后，就可以對(duì)整個(gè)文本圖像進(jìn)行識(shí)別，也就是說(shuō)，文字的切割也被融入到深度學(xué)習(xí)中去了。

OCR處理的技術(shù)框架

根據(jù)上面的技術(shù)框架圖，簡(jiǎn)要介紹一下其中幾個(gè)關(guān)鍵步驟的模型：

第一，傾斜校正，采用深度學(xué)習(xí)模型AdvancedEast，進(jìn)行像素級(jí)別的分割。

它是一種用于場(chǎng)景圖像文本檢測(cè)的算法，主要基于EAST：一種高效且準(zhǔn)確的場(chǎng)景文本檢測(cè)器，并且還提供了顯著的改進(jìn)，這使得長(zhǎng)文本預(yù)測(cè)更準(zhǔn)確。它的網(wǎng)絡(luò)結(jié)構(gòu)圖如下：

第二，采用PixelLink識(shí)別文字條的位置。

該模型是浙大聯(lián)合阿里提出，其核心思想是基于圖像分割來(lái)實(shí)現(xiàn)場(chǎng)景文字檢測(cè)，比起之前的很多基于檢測(cè)的場(chǎng)景文字檢測(cè)模型來(lái)說(shuō)在性能與準(zhǔn)確率方面都有比較明顯的提升。PixelLink網(wǎng)絡(luò)模型架構(gòu)如下：

其中CNN部分采用了VGG16做為特征提取網(wǎng)絡(luò)，對(duì)輸出分為兩個(gè)部分：

像素分割，判斷每個(gè)像素是否為text/non-text
鏈接預(yù)測(cè)，對(duì)每個(gè)像素點(diǎn)八領(lǐng)域進(jìn)行鏈接預(yù)測(cè)，如果是positive則合并為text像素，如果不是則放棄。

通過(guò)上述兩步之后得到疊加的TEXT圖像mask，對(duì)mask圖像進(jìn)行連通組件發(fā)現(xiàn)即可得到最終檢測(cè)框輸出。

第三，采用CRNN模型進(jìn)行文字識(shí)別，它的網(wǎng)絡(luò)結(jié)構(gòu)是這樣的：

網(wǎng)絡(luò)結(jié)構(gòu)包含三部分，從下到上依次為：

卷積層，使用CNN，作用是從輸入圖像中提取特征序列;
循環(huán)層，使用RNN，作用是預(yù)測(cè)從卷積層獲取的特征序列的標(biāo)簽（真實(shí)值）分布;
轉(zhuǎn)錄層，使用CTC，作用是把從循環(huán)層獲取的標(biāo)簽分布通過(guò)去重整合等操作轉(zhuǎn)換成最終的識(shí)別結(jié)果;

CRNN借鑒了語(yǔ)音識(shí)別中的LSTM+CTC的建模方法，不同點(diǎn)是輸入進(jìn)LSTM的特征，從語(yǔ)音領(lǐng)域的聲學(xué)特征（MFCC等），替換為CNN網(wǎng)絡(luò)提取的圖像特征向量。

CRNN算法最大的貢獻(xiàn)，是把CNN做圖像特征工程的潛力與LSTM做序列化識(shí)別的潛力，進(jìn)行結(jié)合。它既提取了魯棒特征，又通過(guò)序列識(shí)別避免了傳統(tǒng)算法中難度極高的單字符切分與單字符識(shí)別，同時(shí)序列化識(shí)別也嵌入時(shí)序依賴(lài)。

目前市面上都能提供哪些類(lèi)型的文本識(shí)別呢？

通用文字識(shí)別

一般是指不規(guī)則文檔類(lèi)的識(shí)別，例如PDF之類(lèi)的。

卡證識(shí)別

身份證、銀行卡、營(yíng)業(yè)執(zhí)照、名片、護(hù)照、港澳通行證、戶(hù)口本、駕駛證、行駛證等等

票據(jù)識(shí)別

增值稅發(fā)票、定額發(fā)票、火車(chē)票、出租車(chē)票、行程單、保單、銀行單據(jù)等等。

其他

車(chē)牌、車(chē)輛合格證、印章檢測(cè)等等。

應(yīng)用場(chǎng)景

最后我們來(lái)聊一下關(guān)于OCR的應(yīng)用場(chǎng)景，在開(kāi)頭的時(shí)候，我們提到，在NLP的相關(guān)產(chǎn)品中，OCR扮演著不可或缺的角色，主要是在關(guān)于文檔處理的一些場(chǎng)景中，例如，pdf等格式的文檔抽取、文檔審核、文檔比對(duì)等等。

遠(yuǎn)程身份認(rèn)證

結(jié)合OCR和人臉識(shí)別技術(shù)，實(shí)現(xiàn)用戶(hù)證件信息的自動(dòng)錄入，并完成用戶(hù)身份驗(yàn)證。應(yīng)用于金融保險(xiǎn)、社保、O2O等行業(yè)，有效控制業(yè)務(wù)風(fēng)險(xiǎn)。

內(nèi)容審核與監(jiān)管

自動(dòng)識(shí)別圖片、視頻中的文字內(nèi)容，及時(shí)發(fā)現(xiàn)涉黃、涉暴、政治敏感、惡意廣告等不合規(guī)內(nèi)容，規(guī)避業(yè)務(wù)風(fēng)險(xiǎn)，大幅節(jié)約人工審核成本。

紙質(zhì)文檔票據(jù)電子化

通過(guò)OCR實(shí)現(xiàn)紙質(zhì)文檔資料、票據(jù)、表格的自動(dòng)識(shí)別和錄入，減少人工錄入成本，提高輸入效率。

本文由 @燕然未勒原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash ，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

燕然未勒

濁酒一杯家萬(wàn)里，燕然未勒歸無(wú)計(jì)。

11篇作品 101898總閱讀量

如何避免產(chǎn)品開(kāi)發(fā)的致命陷阱？AB測(cè)試是你不可或缺的救命稻草！

10-301617 瀏覽

1000億美金！OpenAI將成硅谷史上融資最多公司

05-126029 瀏覽

年輕人佛系擺攤：邊賣(mài)邊送、不為賺錢(qián)、圖個(gè)開(kāi)心

08-222986 瀏覽

"="" class="meta">03-272911 瀏覽

"="" class="meta">

"="" class="meta"> "="" src="https://image.woshipm.com/wp-files/2023/03/GsgXCTipBlhnDvJQwVwX.jpg!/both/120x80" alt="別急著給中國(guó)版ChatGPT唱贊歌：“追風(fēng)者”無(wú)緣“星辰大海”">

豪擲千萬(wàn)投廣告，Temu為何是拼多多最優(yōu)先級(jí)的業(yè)務(wù)？

02-188407 瀏覽