OCR文字識(shí)別在股票查詢的運(yùn)用邏輯

1 評(píng)論 8944 瀏覽 43 收藏 26 分鐘

本文將以行業(yè)+AI的角度,介紹OCR技術(shù)在證券業(yè)務(wù)中的運(yùn)用,且詳細(xì)介紹功能背后的AI技術(shù)和技術(shù)選型思考。

一、需求分析

1. 需求背景

對(duì)于股票服務(wù)類軟件,添加自選股是用戶的高頻需求,自此之前查詢股票是前置步驟,APP中批量查詢股票并添加自選股一直是一個(gè)無法解決的痛點(diǎn)問題,如果添加幾十只股票,需要一只一只的查詢添加,操作非常麻煩。

另一方面,股票業(yè)務(wù)經(jīng)過多年的互聯(lián)網(wǎng)線上發(fā)展,線上新手用戶已經(jīng)很難開拓,獲客方式是通過提供差異化的服務(wù),吸引其他股票產(chǎn)品用戶,并提高用戶轉(zhuǎn)化留存,培養(yǎng)用戶使用自己產(chǎn)品的習(xí)慣。此場景中老用戶都有自己的自選股池,批量導(dǎo)入自選股,是提高用戶留存的必經(jīng)之路和關(guān)鍵環(huán)節(jié)。對(duì)于運(yùn)營轉(zhuǎn)化提升,有非常重要的價(jià)值。

2. 為什么使用OCR

添加自選股的第一步是查詢股票,查詢股票可以通過三種方式操作:手動(dòng)輸入查詢、語音查詢、圖片識(shí)別查詢。

三種查詢方式對(duì)比如下表:


從表中可以看出圖片識(shí)別查詢?cè)谶M(jìn)行批量操作有絕對(duì)的優(yōu)勢。此外,靈活的使用場景,便捷的操作方式,未來可能會(huì)逐步成為用戶查詢股票的高頻行為之一。

3. 確定場景和需求

1)移動(dòng)端主流場景分析

  • 在新用戶首次使用過程中,會(huì)將已經(jīng)的自選股進(jìn)行截圖,通過相冊(cè)獲取截圖進(jìn)行OCR文字識(shí)別查詢股票。
  • 老用戶對(duì)網(wǎng)上的推薦股票進(jìn)行截圖或拍照,通過相冊(cè)或相機(jī)獲取截圖或照片進(jìn)行OCR文字識(shí)別查詢股票
  • 在新聞、熱點(diǎn)文章中會(huì)多只關(guān)聯(lián)股票,通過對(duì)相應(yīng)文本進(jìn)行截圖或拍照,獲取圖片進(jìn)行OCR文字識(shí)別查詢股票。

2)功能需求及非功能需求

  • 基于需求場景,OCR識(shí)別的圖像,多是截圖和照片,圖片中會(huì)有長文本,會(huì)有場景復(fù)雜的拍照文字識(shí)別。
  • 基于產(chǎn)品功能定義,OCR技術(shù)識(shí)別語言目前只需支持A股市場股票名稱識(shí)別,未來隨著業(yè)務(wù)發(fā)展有可能要支持港美股。所以,OCR文字識(shí)別技術(shù)首先要識(shí)別中文和數(shù)字,未來需要擴(kuò)展英文識(shí)別。手寫字體識(shí)別是一個(gè)發(fā)生概率比較低的小場景,所以對(duì)手寫體識(shí)別率要求不高。
  • OCR識(shí)別出的文字,需要從文本中提取股票名稱,文字提取也是必要的過程。

對(duì)于非功能性需求,需要基于使用場景考慮,查詢股票雖然是一個(gè)高頻需求,但用戶使用場景不像下單購買那么急迫,對(duì)識(shí)別的速度、并發(fā)量行業(yè)平均水平即可,在2秒左右可以接受。識(shí)別失敗是體驗(yàn)中比較受挫的事情,對(duì)用戶體驗(yàn)影響大,對(duì)常用的印刷體識(shí)別準(zhǔn)確率要高,至少達(dá)到90%以上。

二、產(chǎn)品方案規(guī)劃

1. 整體功能架構(gòu)


[2-1圖片識(shí)別股票名稱框架圖]

基于圖片查詢股票功能,主要由三部分構(gòu)成:第一部分是前端交互流程,第二部分是OCR文字識(shí)別,第三部分是文字提取。

1)前端界面交互


[2-2 圖片識(shí)別股票名稱界面流程圖]

2)OCR文字識(shí)別

相比于傳統(tǒng)OCR場景(印刷體、掃描文檔),移動(dòng)端OCR場景主要是針對(duì)手機(jī)拍攝的照片或手機(jī)截圖進(jìn)行文字信息提取和識(shí)別,考慮到線下用戶的多樣性,因此主要面臨以下挑戰(zhàn):

  • 成像復(fù)雜:噪音、模糊、光線變化、變現(xiàn)
  • 文字復(fù)雜:字體、字號(hào)、色彩、磨損、筆畫寬度不固定、方向任意
  • 背景復(fù)雜:版面缺失,背景干擾

以上問題,普遍使用基于深度學(xué)習(xí)OCR進(jìn)行解決。

3)文字提取

股票名稱提取,涉及到從識(shí)別的文本中提取文字。

股票名稱有維護(hù)中的數(shù)據(jù)表單,A股市場整體也就2000多只股票,數(shù)據(jù)量不大,所以通過正則表達(dá)式,進(jìn)行股票名稱提取即可。如果從大數(shù)據(jù)中提取文字,用NLP技術(shù)是當(dāng)前比較普遍的方式。

2. 功能流程圖


[2-3 圖片識(shí)別股票名稱功能流程圖]

3. 服務(wù)接入方式

批量添加自選股功能是以APP為載體,除了必要的功能及交互之外,大量計(jì)算都是服務(wù)端進(jìn)行處理,適合以接口形式獲取OCR文字識(shí)別和文字提取服務(wù)。從性能和體驗(yàn)的角度考慮,相比API接口,通過SDK的調(diào)取方式是最好的。

三、OCR文字識(shí)別技術(shù)選型

OCR文字識(shí)別是產(chǎn)品方案的核心技術(shù)。

對(duì)于OCR文字識(shí)別技術(shù),可以從兩種途徑獲得:

  1. 是公司內(nèi)部自建AI團(tuán)隊(duì),搭建技術(shù)框架,準(zhǔn)備數(shù)據(jù),訓(xùn)練算法,并包裝成接口供業(yè)務(wù)層調(diào)用。
  2. 是從外部得到技術(shù)支持,調(diào)用AI開放平臺(tái)提供的云服務(wù)接口,獲得通用OCR文字識(shí)別技術(shù)。

實(shí)踐過程中,兩種方案各有利弊,需要從公司資源和業(yè)務(wù)規(guī)劃層面評(píng)估,哪種方案是最好的,下面來介紹兩種方案的實(shí)現(xiàn)。

1. 自研發(fā)OCR文字識(shí)別

自己團(tuán)隊(duì)研發(fā)OCR技術(shù),實(shí)踐中的關(guān)鍵點(diǎn)在于如何設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)和合成訓(xùn)練數(shù)據(jù)。雖然有公開數(shù)據(jù)集,但是數(shù)據(jù)集并不一定完全吻合自身業(yè)務(wù),可能需要自建數(shù)據(jù)集,或多個(gè)數(shù)據(jù)集篩選整合到一起,如何獲取高質(zhì)量的數(shù)據(jù)集和訓(xùn)練出高識(shí)別率的網(wǎng)絡(luò)結(jié)構(gòu),是AI技術(shù)的團(tuán)隊(duì)的核心工作。

1)數(shù)據(jù)集

OCR算法訓(xùn)練最有難度的是數(shù)據(jù),一方面是訓(xùn)練數(shù)據(jù)集大。普遍應(yīng)用的深度學(xué)習(xí)OCR技術(shù),需要大量的數(shù)據(jù)來保證訓(xùn)練效果,此外,中文漢字庫非常大,一級(jí)字庫有3755個(gè)漢字,再加上三級(jí)字庫,就有上萬個(gè)漢字,印刷體漢字還有9種常用的字體,手寫體漢字更是千人千面,這些組成一個(gè)龐大的數(shù)據(jù)集。

另一方面數(shù)據(jù)集圖片種類多,數(shù)據(jù)標(biāo)注成本高。OCR場景圖片識(shí)別會(huì)有很多因素影響識(shí)別效果,如復(fù)雜背景、藝術(shù)字體、低分辨率、非均勻光照、圖像退化、字符變現(xiàn)、多語言混合、文本行復(fù)雜版式、檢測框字符殘缺等等,有效的數(shù)據(jù)集需要包含這些關(guān)聯(lián)因素。

根據(jù)功能定義,OCR文字識(shí)別技術(shù)需要識(shí)別中文和數(shù)字,兼容印刷體識(shí)別和手寫體識(shí)別,未來需要擴(kuò)展英文識(shí)別。

對(duì)于手寫體識(shí)別數(shù)據(jù)集,選擇中科院自動(dòng)化研究所的公開收集。對(duì)于印刷體識(shí)別數(shù)據(jù)集獲取方式是:公開數(shù)據(jù)集+合成數(shù)據(jù),公開數(shù)據(jù)集主要來自ICDAR比賽和AI研究機(jī)構(gòu)。

除此之外,需要自己合成數(shù)據(jù),來進(jìn)行數(shù)據(jù)增強(qiáng),對(duì)于數(shù)據(jù)增強(qiáng)需要考慮字體、形變、模糊、噪聲、背景變化等因素。合成數(shù)據(jù)可以彌補(bǔ)深度學(xué)習(xí)數(shù)據(jù)量和數(shù)據(jù)多樣性不夠的問題,使訓(xùn)練出來的模型泛化能力更好。

一般我們獲取到的是最原始的數(shù)據(jù)集,會(huì)有不同的格式,在圖像深度學(xué)習(xí)訓(xùn)練中我們一般都會(huì)把原始數(shù)據(jù)集轉(zhuǎn)化為統(tǒng)一的數(shù)據(jù)格式以方便后續(xù)的網(wǎng)絡(luò)訓(xùn)練。

2)框架工具

OCR技術(shù)已經(jīng)從傳統(tǒng)OCR發(fā)展到深度學(xué)習(xí)OCR,并已成為主流趨勢,所以需要選擇深度學(xué)習(xí)框架和工具進(jìn)行算法訓(xùn)練。

常用工具有下面幾種:

Tesseract:

Tesseract是一款很流行的開源OCR引擎,它的特點(diǎn)是開源、免費(fèi)、支持多語言、多平臺(tái),是一直以來使用比較普通的OCR工具,可以快速搭建圖文識(shí)別系統(tǒng)。它可以讀取各種格式的圖像并將它們轉(zhuǎn)化成超過60種語言的文本,但是中文的識(shí)別效果不理想,需要使用自己的庫進(jìn)行訓(xùn)練,開發(fā)符合自身需求的OCR引擎。

以前的Tesseract是基于傳統(tǒng)機(jī)器學(xué)習(xí)的引擎,現(xiàn)在Tesseract (v4) 最新版本支持基于深度學(xué)習(xí)的OCR。底層的 OCR 引擎使用的是一種循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)——LSTM 網(wǎng)絡(luò),準(zhǔn)確率顯著提高,更符合當(dāng)前的深度學(xué)習(xí)OCR趨勢。因?yàn)槭褂玫氖莿e人的OCR引擎,所以自己優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)提高識(shí)別率的靈活性差。

Tensorflow:

Tensorflow是非常流行的深度學(xué)習(xí)框架,尤其是對(duì)圖像處理有很好的效果,基于其深度學(xué)習(xí)庫,可以很好的進(jìn)行OCR文字識(shí)別訓(xùn)練。

使用Tensorflow雖然沒有Tessract效率高,但是有更高的靈活性和探索性,基于深度學(xué)習(xí)庫的使用,可以設(shè)計(jì)出更適應(yīng)業(yè)務(wù)需求的網(wǎng)絡(luò)結(jié)構(gòu),更好的提高OCR識(shí)別效率。對(duì)于研發(fā)能力強(qiáng)的團(tuán)隊(duì),更傾向于使用基礎(chǔ)框架,自己設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)。

OpenCV:

OpenCV是一個(gè)跨平臺(tái)的開源計(jì)算機(jī)視覺庫,提供基本的計(jì)算機(jī)視覺、圖像處理和模式識(shí)別的開源項(xiàng)目,實(shí)現(xiàn)了圖像處理和計(jì)算機(jī)視覺方面的很多通用算法。

OpenCV模塊支持Caffe、TensorFlow、Torch、PyTorch等深度學(xué)習(xí)框架應(yīng)用于OCR領(lǐng)域,可用于檢測、識(shí)別自然場景圖像中的文本。OpenCV在數(shù)據(jù)增強(qiáng)方面價(jià)值尤其突出,通過合成數(shù)據(jù)集,訓(xùn)練算法,提高OCR識(shí)別率。

3)框架設(shè)計(jì)

設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)是OCR實(shí)踐中的另外一個(gè)關(guān)鍵點(diǎn)。識(shí)別文字建模為一個(gè)多分類任務(wù),比如3755個(gè)文字識(shí)別就需要3755個(gè)類別的分類任務(wù),實(shí)際訓(xùn)練中可能有上萬個(gè)分類。

深度學(xué)習(xí)OCR框架通常包括文字檢測和文字識(shí)別2個(gè)模塊,文字檢測是通過檢測算法定位到文本行,然后通過文字識(shí)別算法閱讀出文本行的內(nèi)容。

【3-1 深度學(xué)習(xí)OCR框架】

文字檢測是場景文字識(shí)別的前提條件,要在雜亂無序、千奇百怪的復(fù)雜場景中準(zhǔn)確地定位出文字的位置,需要高效合理的文字檢測框架支持。適用于通用場景的主流文字檢測框架有兩種FCN和CTPN,對(duì)廣泛應(yīng)用的Faster-RCNN框架適用于特定場景文字檢測,如身份證識(shí)別、銀行卡識(shí)別、發(fā)票識(shí)別等場景。

FCN:

FCN是基于全卷積網(wǎng)絡(luò)的文字檢測方法,在通用場景的文字檢測領(lǐng)域有很好的效果,尤其是背景復(fù)雜的戶外廣告牌識(shí)別。

FCN框架基于全卷積網(wǎng)絡(luò)的方法,同時(shí)使用分割(Segmentation)和邊界框回歸(Bounding Box Regression)的方式對(duì)場景文字進(jìn)行檢測,直接產(chǎn)生單詞或文本行級(jí)別的預(yù)測(旋轉(zhuǎn)矩形或任意四邊形),通過非極大值抑制產(chǎn)生最終結(jié)果。

【3-2基于FCN的文本檢測流程圖】

【3-3 基于FCN的文本檢測網(wǎng)絡(luò)結(jié)構(gòu)圖】

CTPN:

CTPN是基于聯(lián)結(jié)文本建議網(wǎng)絡(luò)的文字檢測方法,與傳統(tǒng)文字定位方法相比,通過CNN提取深度特征,并結(jié)合RNN進(jìn)行序列學(xué)習(xí)提升文本檢測效果,大幅提高文本框邊界檢測精度,尤其對(duì)于長文本(水平及具有一定傾斜角度的長文本)的檢測。

CTPN算法框架主要思路是:將文本行識(shí)別看做一個(gè)序列識(shí)別問題,通過在卷積網(wǎng)絡(luò)的特征圖上提取Anchors,并計(jì)算每個(gè)Anchor的得分,并在計(jì)算得分的過程中,綜合利用上下文信息、每行的文本序列特性,采用RNN進(jìn)行建模以判斷文字的得分。

【3-4基于聯(lián)結(jié)文本建議網(wǎng)絡(luò)的文本檢測模型架構(gòu)圖】

【3-5經(jīng)典的CTPN網(wǎng)絡(luò)模型架構(gòu)圖】

在文字識(shí)別過程中,將整行文字識(shí)別問題歸結(jié)為一個(gè)序列學(xué)習(xí)問題。

基本思路是:CNN與RNN結(jié)合,CNN被用于提取有表征能力的圖像特征,而RNN處理序列問題,學(xué)習(xí)上下文關(guān)系。

文字識(shí)別框架近兩年比較受關(guān)注的主要有兩種:一種是CNN+RNN+CTC的方法,另一種是Attention model+CNN+RNN。

CNN+RNN+CTC:

文字識(shí)別可建模為時(shí)序依賴的詞匯或者短語識(shí)別問題,基于聯(lián)結(jié)時(shí)序分類訓(xùn)練RNN的算法。

相比于傳統(tǒng)OCR,其識(shí)別效果更好。CNN+RNN+CTC網(wǎng)絡(luò)結(jié)構(gòu)包含三部分,從下到上依次為:

  1. 卷積層,使用CNN,作用是從輸入圖像中提取特征序列。
  2. 循環(huán)層,使用RNN,作用是預(yù)測從卷積層獲取的特征序列的標(biāo)簽(真實(shí)值)分布。
  3. 轉(zhuǎn)錄層,使用CTC,作用是把從循環(huán)層獲取的標(biāo)簽分布通過去重整合等操作轉(zhuǎn)換成最終的識(shí)別結(jié)果。

【3-6 CNN+RNN+CTC算法模型架構(gòu)圖】

Attention model+CNN+RNN:

Attention model+CNN+RNN是基于注意力模型的文字識(shí)別方法,其實(shí)這兩大方法主要區(qū)別在于最后的輸出層(翻譯層)——即怎么將網(wǎng)絡(luò)學(xué)習(xí)到的序列特征信息轉(zhuǎn)化為最終的識(shí)別結(jié)果。

這兩大主流技術(shù)在其特征學(xué)習(xí)階段都采用了CNN+RNN的網(wǎng)絡(luò)結(jié)構(gòu),CRNN OCR在對(duì)齊時(shí)采取的方式是CTC算法,而attention OCR采取的方式則是attention機(jī)制。注意力模型在廣告圖像、自然場景圖像等極具挑戰(zhàn)性的場景取得了很好的端到端識(shí)別效果。

4)算法測試

衡量一個(gè)OCR算法性能的常用指標(biāo)包括精準(zhǔn)率、召回率、F值和識(shí)別速度。

精準(zhǔn)率與召回率:

精準(zhǔn)率可以理解為:模型識(shí)別字符“A”,最終識(shí)別成功的數(shù)量占所有被識(shí)別為字符“A”的比例。精準(zhǔn)率是算法最重要的標(biāo)準(zhǔn)之一,精準(zhǔn)率測試除了對(duì)字符進(jìn)行測試外,還對(duì)條目進(jìn)行測試。在印刷體識(shí)別中OCR的識(shí)別率比較高,普遍達(dá)到90%以上,但在自然場景文字識(shí)別中,獲得理想的準(zhǔn)確率面臨著非常大的挑戰(zhàn)。

計(jì)算公式為:

精準(zhǔn)率=TP/(TP+FP)

召回率可以理解為:模型識(shí)別字符“A”,最終識(shí)別成功的數(shù)量占所有字符“A”的比例。召回率與精準(zhǔn)率在一般情況下是矛盾的。

計(jì)算公式為:

召回率=TP/(TP+TN)

F值(也稱F1值):

精準(zhǔn)率和召回率是互相影響的,理想情況下肯定是兩者都高最好,但是一般情況下準(zhǔn)確率與召回率是矛盾的。召回率高、準(zhǔn)確率低,召回率低、準(zhǔn)確率高,當(dāng)然如果兩者都低,那是什么地方出問題了。

當(dāng)精準(zhǔn)率和召回率矛盾的情況下,單一依靠某個(gè)指標(biāo)并不能較為全面地評(píng)價(jià)一個(gè)模型的性能。如何評(píng)估一個(gè)模型,常見的方法是F-Measure(又稱F-Sorce),通過引入F值作為綜合指標(biāo),評(píng)價(jià)模型的性能,F(xiàn)值是精準(zhǔn)率和召回率的加權(quán)調(diào)和平均值。

F-Measure方法中,常用F1值作為精準(zhǔn)率和召回率的加權(quán)調(diào)和平均值,實(shí)踐中如果我們想創(chuàng)建一個(gè)具有最佳的精度—召回率平衡的模型,那么就要嘗試將 F1 值 最大化。

F1=2*精準(zhǔn)率*召回率/(精準(zhǔn)率+召回率)

舉例說明精準(zhǔn)率、召回率、F值:

OCR模型的測試方法為比較圖片中識(shí)別字符與標(biāo)注的字符是否一致。例如:識(shí)別100個(gè)字符,標(biāo)注是“A”識(shí)別為“A”的情況有30次,標(biāo)注是“A”沒有識(shí)別為“A”的情況為5次,標(biāo)注不是“A”被識(shí)別為“A”的次數(shù)有8次。綜上所述:TP為30次,F(xiàn)N為5次,F(xiàn)P為8次。

【3-7 文字識(shí)別精準(zhǔn)率、召回率與F值】

通過公式計(jì)算字符識(shí)別的精準(zhǔn)率、召回率、F1值:

  • 精準(zhǔn)率:30/30+8=0.79
  • 召回率:30/30+5=0.86
  • 模型的綜合評(píng)價(jià)F1值: 2*0.79*0.86/0.79+0.86= 0.82

在OCR識(shí)別中,不管是FN和FP都是識(shí)別錯(cuò)誤,對(duì)業(yè)務(wù)場景的影響沒有區(qū)別,不像人臉識(shí)別,高召回率意味著模型風(fēng)控更嚴(yán)格,所以O(shè)CR應(yīng)該更關(guān)注模型的F值,盡可能取最大F值。

識(shí)別速度:

深度學(xué)習(xí)OCR的識(shí)別流程是輸入圖片,進(jìn)行文字檢測識(shí)別文字位置,然后進(jìn)行文字識(shí)別,輸出識(shí)別文本結(jié)果。整個(gè)過程算法識(shí)別速度,一般在200ms – 2s,真實(shí)場景中識(shí)別速度會(huì)受圖片大小、字?jǐn)?shù)多少及網(wǎng)絡(luò)環(huán)境影響。

5)模型封裝

模型訓(xùn)練好,通常還需要對(duì)模型進(jìn)行裁剪遷移到實(shí)際運(yùn)行環(huán)境中并封裝成SDK接口供前端調(diào)用,其中還涉及到模型在真實(shí)環(huán)境中參數(shù)的跳轉(zhuǎn)和優(yōu)化。

2. 第三方OCR云服務(wù)接口

分析完自研發(fā)OCR技術(shù)的實(shí)現(xiàn)流程后,接下來分析第二種實(shí)現(xiàn)方案,接入外部AI開放平臺(tái)的OCR接口實(shí)現(xiàn)產(chǎn)品功能。對(duì)于接入外部接口,要從多個(gè)方面來衡量OCR系統(tǒng),除了關(guān)注指標(biāo)識(shí)別準(zhǔn)確率、識(shí)別速度、接口的穩(wěn)定性、抗壓性、易用性及用戶界面的友好性等因素外,還要關(guān)注成本因素。

1)OCR技術(shù)比較

對(duì)行業(yè)知名的AI開放平臺(tái)百度、騰訊、阿里、有道,進(jìn)行通用OCR文字識(shí)別分析比較:

百度—通用文字識(shí)別:

騰訊—通用印刷體識(shí)別:

有道-通用OCR:

阿里云—通用文字識(shí)別:

2)通用OCR服務(wù)選擇

根據(jù)功能定義、產(chǎn)品規(guī)劃、場景需求和成本費(fèi)用,比較后,選擇百度通用文字識(shí)別接口。因?yàn)槠涑S梦淖值挠∷Ⅲw中文識(shí)別率比較高,識(shí)別速度和并發(fā)量都是可接受的范圍,對(duì)于文字位置識(shí)別,生僻字識(shí)別等功能沒有太強(qiáng)需求。

同時(shí),百度通用OCR價(jià)格也是比較有有優(yōu)勢的,根據(jù)每日的接口請(qǐng)求數(shù)據(jù)估算,提供的免費(fèi)額度很充分,性價(jià)比很高。

最重要的因素之一是:其提供移動(dòng)端SDK接口,可以更靈活的設(shè)計(jì)前端界面和交互。

3)小結(jié)

使用第三方技術(shù)接口,有很多局限性,OCR技術(shù)的優(yōu)化升級(jí)依賴第三方公司,無法根據(jù)自己的業(yè)務(wù)場景優(yōu)化OCR識(shí)別效果。另一方面,使用第三方接口,產(chǎn)品測試主要是常規(guī)的接口、整個(gè)系統(tǒng)聯(lián)調(diào)測試,OCR文字識(shí)別算法測試精細(xì)度受限。

四、方案選擇

通過兩個(gè)技術(shù)方案的分析,自己建立AI團(tuán)隊(duì),訓(xùn)練出的算法會(huì)跟滿足自身產(chǎn)品的需求,識(shí)別效果更好。但整個(gè)AI開發(fā)過程的周期是比較長的,同時(shí)團(tuán)隊(duì)的算法工程師大多是做大數(shù)據(jù)和量化投資方向的,沒有專門OCR技術(shù)經(jīng)驗(yàn),無法保證短時(shí)間內(nèi)設(shè)計(jì)出合理的OCR網(wǎng)絡(luò)結(jié)構(gòu)。

在綜合考量了時(shí)間成本、人力成本、技術(shù)難度等各方面的因素后,決定通過第三方云服務(wù)接口來獲取OCR技術(shù)。

五、總結(jié)

行業(yè)+AI方向的業(yè)務(wù)中,由于人才和成本的限制,大多數(shù)是沒有自建AI算法團(tuán)隊(duì),很大程度上依賴AI開放平臺(tái)上的技術(shù)能力。這個(gè)時(shí)候需要產(chǎn)品經(jīng)理去了解各種AI開放平臺(tái)的技術(shù)能力,各自的技術(shù)優(yōu)劣勢,做好技術(shù)選型。

作為業(yè)務(wù)層產(chǎn)品經(jīng)理雖不參與AI技術(shù)研發(fā),還是要了解AI技術(shù)實(shí)踐,一是為功能規(guī)劃選擇最有利的,便于業(yè)務(wù)層功能的設(shè)計(jì)開發(fā);二是對(duì)領(lǐng)導(dǎo)可以闡述清楚,獲得領(lǐng)導(dǎo)層的支持。

參考資料

 

本文由 @夏薇 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 很不錯(cuò)的想法。不過從需求而言。感覺有更好的方法

    回復(fù)