AI產(chǎn)品分析 (三):詳解作業(yè)幫“拍照搜題”功能邏輯和技術(shù)原理

1 評(píng)論 29427 瀏覽 117 收藏 28 分鐘

今天一起體驗(yàn)作業(yè)幫“拍照搜題”功能,從實(shí)際產(chǎn)品使用流程中切實(shí)感受AI技術(shù)? 如何為教育創(chuàng)造更多可能~

前兩期對(duì)抖音和美圖的體驗(yàn),讓我們見證了計(jì)算機(jī)視覺技術(shù)帶給人類生活感官及娛樂的刺激,本期我們對(duì)作業(yè)幫進(jìn)行體驗(yàn),感受AI對(duì)教育的助推。

作業(yè)幫是一款以“拍照搜題”為核心功能的在線教育產(chǎn)品,該功能的實(shí)現(xiàn)主要運(yùn)用了OCR和深度學(xué)習(xí)技術(shù),故本文圍繞該項(xiàng)功能的體驗(yàn),結(jié)合簡(jiǎn)要的技術(shù)分析,領(lǐng)略作業(yè)幫化身“AI小叮當(dāng)”的魅力,話不多說,開始本期的旅程吧~

1. 產(chǎn)品概況

作業(yè)幫是一款以拍照搜題、課程輔導(dǎo)為核心功能的K12教育產(chǎn)品,該產(chǎn)品主要面向的是K12階段的學(xué)生、家長(zhǎng)及老師人群,其中學(xué)生人群為主。

【AI產(chǎn)品】超長(zhǎng)文詳解作業(yè)幫產(chǎn)品邏輯和技術(shù)原理

如圖,根據(jù)七麥數(shù)據(jù)的實(shí)時(shí)榜單排名顯示,作業(yè)幫在暢銷榜中排名第二,而在免費(fèi)榜單中排名第五。

值得注意的是,這是所有教育主題下的產(chǎn)品排名,若僅考慮K12教育范疇,作業(yè)幫是當(dāng)之無愧的“小霸王”。

這也間接說明了,作業(yè)幫在明確的產(chǎn)品定位下,為學(xué)生解決了習(xí)題答案搜索、學(xué)習(xí)輔導(dǎo)等問題,并且提供了相對(duì)競(jìng)品而言更為優(yōu)良的用戶體驗(yàn)。

【AI產(chǎn)品】超長(zhǎng)文詳解作業(yè)幫產(chǎn)品邏輯和技術(shù)原理

同時(shí),根據(jù)艾瑞數(shù)據(jù)顯示(圖中垂直坐標(biāo)軸單位為萬臺(tái)),作業(yè)幫的月活,和同類型的產(chǎn)品如小猿搜題、學(xué)霸君相比之下,其排名為第一,且領(lǐng)先的優(yōu)勢(shì)比較明顯。

【AI產(chǎn)品】超長(zhǎng)文詳解作業(yè)幫產(chǎn)品邏輯和技術(shù)原理

如圖,作業(yè)幫的月活平均值為8478萬臺(tái),而小猿搜題為1618萬臺(tái),二者相差的距離較遠(yuǎn),僅從日活的角度來看,作業(yè)幫的日活值也達(dá)到小猿搜題的5倍,進(jìn)一步證明作業(yè)幫在同類型產(chǎn)品中具有較強(qiáng)的競(jìng)爭(zhēng)力。

通常,我們衡量一個(gè)工具類的產(chǎn)品好壞,除利用榜單排名外,月活和日活是更為重要的指標(biāo)。

則結(jié)合上述數(shù)據(jù)分析可見,在線教育的服務(wù)需求中,作業(yè)幫向用戶交出了一份滿意的答案。而作業(yè)幫獲得的良好口碑,與拍照搜題這一核心功能功能精益求精的良好性能與優(yōu)秀的用戶體驗(yàn)密不可分。

為了進(jìn)一步認(rèn)識(shí)拍照搜題功能及其背后的相關(guān)技術(shù)原理,以下將從拍照搜題功能項(xiàng)的用戶-場(chǎng)景-需求分析功能目的、功能邏輯、用戶評(píng)論等方面進(jìn)行剖析,并結(jié)合技術(shù)給出最終的體驗(yàn)結(jié)論。

2. 用戶-場(chǎng)景-需求分析

【AI產(chǎn)品】超長(zhǎng)文詳解作業(yè)幫產(chǎn)品邏輯和技術(shù)原理

可見,作業(yè)幫的主要用戶可分為學(xué)生、家長(zhǎng)及老師,其中以學(xué)生群體為主。

為了更形象地說明拍照搜題功能的意義,我們講三個(gè)典型的用戶故事。

故事1:

小A是一名高三的學(xué)生,正面臨嚴(yán)峻的升學(xué)壓力。平時(shí)在家自己寫作業(yè)時(shí),如果遇到不會(huì)的題,他會(huì)直接打開作業(yè)幫,不用手動(dòng)輸入,直接拍照搜索同類型的題,既不會(huì)耽誤時(shí)間,又能及時(shí)理清楚當(dāng)天所學(xué)的知識(shí)點(diǎn)。偶爾,如果課堂上老師講題的思路他不清楚,回家也會(huì)自己拍照,然后看看平臺(tái)上別人的解題思路就豁然開朗了。

此外,高三了很多知識(shí)點(diǎn)需要不斷地強(qiáng)化鞏固,所以他還有一個(gè)高效學(xué)習(xí)的小竅門,那就是拍照搜題之后,通過舉一反三對(duì)同類型的題目進(jìn)行反復(fù)練習(xí),一次性吃透知識(shí)點(diǎn)。

更重要的,因?yàn)樘幱谝粋€(gè)教育水平相對(duì)落后的縣城,而平臺(tái)上圍繞拍照搜題,還可以選擇一些名校名師來幫助解答或觀看對(duì)應(yīng)的解題視頻,幫助自己見識(shí)到更簡(jiǎn)便的解法,感覺作業(yè)幫的搜題功能太方便了,簡(jiǎn)直就是自己的“小叮當(dāng)”。

故事2:

老王是小A的爸爸,文化程度較低,平時(shí)大部分時(shí)間都在忙工作,盡管如此經(jīng)濟(jì)也是捉襟見肘,他希望小A可以好好讀書,將來擺脫和自己一樣的生活困境。老師給小A介紹了一款應(yīng)用軟件叫作業(yè)幫,幫助他解決了輔導(dǎo)孩子的無力感,同時(shí)直接拍照搜題,可以節(jié)省時(shí)間,安排也很靈活,同時(shí)在線教育更為經(jīng)濟(jì),也為家里節(jié)約了很多補(bǔ)習(xí)費(fèi)。

還有的時(shí)候老王輔導(dǎo)小A的妹妹小B寫小學(xué)作業(yè),也不用自己輸入百度之后搜索那么麻煩了,直接拍照就可以看到答案后再輔導(dǎo)孩子,體驗(yàn)很不錯(cuò),所以現(xiàn)在他逢人就推薦作業(yè)幫。

故事3:

陳老師是小王的班主任,在小縣城任教,有比較多空余時(shí)間,但是工資比較低。工作閑暇之余,陳老師還在作業(yè)幫上為學(xué)生們答疑解惑,比如對(duì)學(xué)生拍照搜題的結(jié)果,如果還不理解,就換種思路幫助繼續(xù)解答,或者幫助一些孩子進(jìn)行強(qiáng)化學(xué)習(xí)和訓(xùn)練,這樣既可以繼續(xù)發(fā)揮自己的教學(xué)價(jià)值,還能賺取一部分的額外收入,所以陳老師也很心水作業(yè)幫~

3. 功能目的

結(jié)合用戶-需求-場(chǎng)景及用戶故事,我們可以很清楚地看到,作業(yè)幫作為一個(gè)K12階段相對(duì)成功的在線教育產(chǎn)品,依托于人工智能技術(shù)的發(fā)展,為廣大的學(xué)生、家長(zhǎng)和老師帶來了便利。

對(duì)于學(xué)生而言,遇到不會(huì)的題目或含糊不清的知識(shí)點(diǎn),作業(yè)幫的拍照搜題,使得孩子們可以不用受困于老師不在身邊、家長(zhǎng)無力輔導(dǎo)或逐文字輸入搜索的困境。同時(shí)該功能的外延還可以幫助學(xué)生強(qiáng)化知識(shí)點(diǎn),學(xué)會(huì)舉一反三,甚至因?yàn)槠脚_(tái)上對(duì)學(xué)生的問題還提供了名校名師答疑解惑的選項(xiàng),一定程度上可以緩解教育資源不平衡的矛盾。

  • 而對(duì)于家長(zhǎng)而言,作業(yè)幫的拍照搜題幫助他們緩解了自身文化程度不高無法輔導(dǎo)孩子的無力感,同時(shí)幫助工作忙的家長(zhǎng)節(jié)省了時(shí)間,也替經(jīng)濟(jì)條件有限的家長(zhǎng)省了錢。
  • 而對(duì)教師用戶而言,作業(yè)幫也為他們價(jià)值和利益最大化提供了一個(gè)平臺(tái)。
  • 對(duì)作業(yè)幫而言,拍照搜題的提出,是迎合AI時(shí)代對(duì)教育的一種創(chuàng)新,同時(shí)為計(jì)算機(jī)視覺技術(shù)的落地提供了良好的落地契機(jī),為傳統(tǒng)教育的改革帶來了新的方向。

而隨著平臺(tái)的不斷成熟,圍繞著拍照搜題,作業(yè)幫進(jìn)一步開拓了課程輔導(dǎo)、學(xué)習(xí)圈等功能,進(jìn)一步提升了作業(yè)幫的服務(wù)。但不可否認(rèn)的是,拍照搜題仍然是作業(yè)幫的亮點(diǎn),而且作業(yè)幫的發(fā)展戰(zhàn)略,也一直立足于不斷地提升后臺(tái)算法對(duì)題目照片的識(shí)別的準(zhǔn)確率及題庫的完備率,也因此才得以維持向上的發(fā)展勁頭。

傳統(tǒng)意義上的產(chǎn)品設(shè)計(jì),強(qiáng)調(diào)功能主次鮮明的重要性,而從當(dāng)前對(duì)人工智能類的產(chǎn)品體驗(yàn)中也可以看出,該原則對(duì)AI類產(chǎn)品亦同樣重要。

算法、技術(shù)可以有千千萬萬種,用戶可能遍布天涯海角,但作為一個(gè)產(chǎn)品,尤其是工具類的產(chǎn)品,如果本身核心功能不夠出眾,或在后續(xù)的完善中偏離了核心功能軌道,只有死路一條。而從人工智能發(fā)展的角度來看,算法準(zhǔn)確率的提升和優(yōu)化是一個(gè)不均衡的過程。

比如,起步的時(shí)候,可能隨便加大訓(xùn)練數(shù)據(jù)數(shù)量或者是調(diào)整學(xué)習(xí)參數(shù)或訓(xùn)練的方式,算法提升的效果就很明顯,因?yàn)檎f到底,所謂的人工智能,還是利用了計(jì)算機(jī)超強(qiáng)的存儲(chǔ)及快速暴力求解的能力。

但隨著不斷地推進(jìn),面對(duì)的數(shù)據(jù)越來越復(fù)雜、用戶場(chǎng)景越來越多、需求越來越豐富,算法還想提升,哪怕那么一個(gè)百分點(diǎn),都是十分困難的,這也是所有人工智能類產(chǎn)品在迭代進(jìn)程中都會(huì)面臨的問題。

但是我們從作業(yè)幫拍照搜題的識(shí)別越來越準(zhǔn)確,用戶體驗(yàn)也越來越好,可以看到作業(yè)幫一直在堅(jiān)持后臺(tái)算法的迭代和優(yōu)化,這種對(duì)初衷的堅(jiān)持是算法之外更可貴的產(chǎn)品精神。

4. 功能邏輯

【AI產(chǎn)品】超長(zhǎng)文詳解作業(yè)幫產(chǎn)品邏輯和技術(shù)原理

從中可見,在拍照的過程中,做出了兩個(gè)比較明顯的限制。

第一個(gè)是橫屏拍照,保持題目處于圖片的特定區(qū)域,其目的在于減少后續(xù)識(shí)別算法處理的難度。其次是對(duì)拍攝燈光的要求,因?yàn)楫?dāng)光線較暗時(shí),圖片不夠清晰,則后期的文字識(shí)別會(huì)出問題,不利于最終的識(shí)別準(zhǔn)確率。

這是用戶體驗(yàn)和算法準(zhǔn)確性之間的一種權(quán)衡,更人性化的產(chǎn)品設(shè)計(jì)提倡,盡量減少對(duì)用戶的要求,增加用戶使用的自由性。

然而對(duì)于人工智能算法類的產(chǎn)品設(shè)計(jì)而言,其準(zhǔn)確率的獲得往往需基于一定的前提,一旦打破這些限制,算法識(shí)別的效果可能就會(huì)十分差勁,則會(huì)帶給用戶更糟糕的影響。

以下是實(shí)際體驗(yàn)的一個(gè)過程截圖:

【AI產(chǎn)品】超長(zhǎng)文詳解作業(yè)幫產(chǎn)品邏輯和技術(shù)原理

基于上述體驗(yàn),可見拍照搜題技術(shù),已經(jīng)取得了可接受的成效。

為了增加對(duì)算法識(shí)別的難度,體驗(yàn)中我們特別使用手寫題目,而從搜索的結(jié)果來看,返回結(jié)果中的5道題與原圖的相似度很高,說明文字識(shí)別及后續(xù)文字特征匹配的準(zhǔn)確率達(dá)到了可應(yīng)用的程度。

同時(shí)我們還嘗試了將兩道題放在一起拍,則畫面中占比較大的題目也可以檢索得到很好的輸出,這進(jìn)一步說明,算法在處理的過程中,對(duì)于文字的切割比較準(zhǔn)確。但是,體驗(yàn)中也發(fā)現(xiàn)了一些不足。

比如:題目拍攝的要求較高,尤其是屏幕中限定的框大小是固定的,而有的時(shí)候搜索的題目長(zhǎng)短不一,所以大部分情況下難以在平臺(tái)給定的小框內(nèi)容納題目,所以只能拍攝題目的關(guān)鍵部分,如果一次識(shí)別不準(zhǔn)確就要反復(fù)嘗試,直到找到或放棄,增加了用戶操作的成本。

這是由于后臺(tái)算法的靈活度還不夠決定的。

其實(shí)我們需要更多地理解,這不是產(chǎn)品本身設(shè)計(jì)死板,而是因?yàn)楝F(xiàn)有的機(jī)器學(xué)習(xí)或深度學(xué)習(xí)算法,本身仍比較機(jī)械。比如:很多神經(jīng)網(wǎng)絡(luò)的輸入,都有固定大小的需求,一些算法也僅僅對(duì)達(dá)到某些條件的圖片處理才能獲得良好的準(zhǔn)確率,同時(shí)AI類的產(chǎn)品設(shè)計(jì)又缺乏足夠的經(jīng)驗(yàn)積累。

這或許會(huì)在未來隨著深度學(xué)習(xí)進(jìn)一步發(fā)展,算法具有更強(qiáng)的推理和學(xué)習(xí)能力后,可以一定程度上增加產(chǎn)品設(shè)計(jì)的靈活度。

再比如:針對(duì)少數(shù)部分文字描述,而題意的表達(dá)主要依靠示意圖的數(shù)學(xué)題,體驗(yàn)過程中我們嘗試只拍攝題目的圖片,此時(shí)系統(tǒng)大概率下無法檢索。也就是說,出現(xiàn)“圖中圖”的情況,算法識(shí)別準(zhǔn)確率較差。

這可能是因?yàn)橄到y(tǒng)基于OCR和深度學(xué)習(xí)的方法,主要對(duì)文字切割進(jìn)行處理,但是對(duì)圖像特征的處理比較欠缺,所以檢索效果較差。

則上述問題的解決,可通過多種技術(shù)方案融合,應(yīng)對(duì)不同用戶場(chǎng)景需求的特定任務(wù)處理,增強(qiáng)算法應(yīng)用的魯棒性,減少算法失靈的情況,這應(yīng)當(dāng)也是未來人工智能產(chǎn)品落地的一個(gè)重要關(guān)注點(diǎn)。

最后,還有一個(gè)小問題,有時(shí)拍攝上傳數(shù)學(xué)類的題目,返回的結(jié)果中可能還包含物理、化學(xué)、英語等結(jié)果,我們將這類錯(cuò)誤姑且稱之為跨學(xué)科錯(cuò)誤。

這也是可以理解的,因?yàn)樗惴ǜP(guān)注于對(duì)拍攝題目的文字識(shí)別,并在之后以文字特征的相近性作為主要指標(biāo),進(jìn)行搜索結(jié)果返回。如此,只要題目描述和題庫文本更相似就會(huì)作為結(jié)果返回,卻忽略題目類別的考慮。

關(guān)于這個(gè)問題的解決,或許可以考慮,在識(shí)別的過程中,增加類別標(biāo)簽,如拍攝題目上傳之后,可以通過用戶設(shè)定題目類標(biāo)簽。比如:屬于語文、數(shù)學(xué)、英語等,則上傳之后在特定的范圍檢索,這一方面可以提高算法檢索的效率,另一方面也可以減少跨學(xué)科返回的錯(cuò)誤。

(這一步在技術(shù)上看來是可行,而且增加的成本也只是用戶上傳的時(shí)候多了一個(gè)打標(biāo)簽的操作,但是卻可以上傳之后,結(jié)合這個(gè)標(biāo)簽減少檢索的范圍,同時(shí)減少跨學(xué)科返回的錯(cuò)誤,而且后面做用戶評(píng)論分析分析這個(gè)問題還是槽點(diǎn)比較多地一個(gè),那為什么作業(yè)幫不做呢?我想不明白~)

5. 用戶評(píng)論

作業(yè)幫自上線以來,收獲的口碑不錯(cuò),根據(jù)七麥數(shù)據(jù)顯示其IOS市場(chǎng)下評(píng)分結(jié)果如圖:

【AI產(chǎn)品】超長(zhǎng)文詳解作業(yè)幫產(chǎn)品邏輯和技術(shù)原理

總體評(píng)分達(dá)到4.6,好評(píng)率較高,同時(shí)為了進(jìn)一步發(fā)現(xiàn)該應(yīng)用仍存在的問題,我們搜集相關(guān)用戶評(píng)論共30條,其中部分用戶數(shù)據(jù)統(tǒng)計(jì)截圖如下:

【AI產(chǎn)品】超長(zhǎng)文詳解作業(yè)幫產(chǎn)品邏輯和技術(shù)原理

30條數(shù)據(jù)中,1、2、3、5等級(jí)對(duì)應(yīng)的數(shù)據(jù)量分別為20、3、2、5條,其中以低分差評(píng)為主,更利于我們發(fā)現(xiàn)產(chǎn)品的問題。

【AI產(chǎn)品】超長(zhǎng)文詳解作業(yè)幫產(chǎn)品邏輯和技術(shù)原理

則對(duì)用戶數(shù)據(jù)進(jìn)行關(guān)鍵詞提取后,發(fā)現(xiàn)其基本占比如圖所示。

我們將用戶對(duì)問題的描述,提取出對(duì)應(yīng)的關(guān)鍵詞進(jìn)行歸類以便后續(xù)進(jìn)行歸因分析。

  • 首先是結(jié)果問題,主要包含的描述如搜不到題目搜出來的題目與用戶需求不符合、答案解析有誤等,占比較高達(dá)36.7%。
  • 其次是閃退問題,約16.7%的用戶反映在拍照搜題的的使用過程中會(huì)出現(xiàn)閃退問題,也屬于一個(gè)高頻問題。
  • 最后拍攝問題,同樣地也有16.7%的用戶反映,拍攝的過程中存在拍攝困難、橫屏適配的問題。

同時(shí)跨學(xué)科問題也比較明顯,它是指用戶拍攝數(shù)學(xué)題,結(jié)果檢索出來英文題目,這是比較刺激用戶體驗(yàn)一種存在,用戶直觀看來會(huì)覺得系統(tǒng)無疑是“人工智障”。

此外還有抄襲問題,它主要反映了由于拍照搜題的便利性的同時(shí)帶來了孩子不加思考、直接抄襲的弊端,占比達(dá)6.7%,這背后也反映出技術(shù)的雙刃性。

產(chǎn)品,既要寵著上帝,還要冒著被拋棄的風(fēng)險(xiǎn)“管管上帝”,要禿頭~

【AI產(chǎn)品】超長(zhǎng)文詳解作業(yè)幫產(chǎn)品邏輯和技術(shù)原理

我們將最終問題產(chǎn)生的原因主要?dú)w類為算法準(zhǔn)確率、產(chǎn)品設(shè)計(jì)、產(chǎn)品運(yùn)營(yíng)、產(chǎn)品bug

首先針對(duì)結(jié)果問題,如搜題不準(zhǔn)確、跨學(xué)科問題等都是由于平臺(tái)算法不夠精準(zhǔn)、魯棒性差而引起的一種搜索結(jié)果返回失誤,該原因也是最為重要的一個(gè),而且也是大部分人工智能產(chǎn)品普遍存在的問題。

因?yàn)閷?duì)于AI類的產(chǎn)品而言,算法準(zhǔn)確率及穩(wěn)定性直接影響了產(chǎn)品的使用體驗(yàn)。雖然目前有一些優(yōu)秀的產(chǎn)品細(xì)節(jié)設(shè)計(jì)可以緩解用戶對(duì)準(zhǔn)確率的矛盾,但是效果并不明顯,而該類問題的解決只能依賴于對(duì)算法的進(jìn)一步強(qiáng)化訓(xùn)練及參數(shù)調(diào)節(jié)。

題目拍攝過程中存在的橫屏問題,則屬于產(chǎn)品設(shè)計(jì)的范疇,需要產(chǎn)品人員充分理解算法的應(yīng)用的基礎(chǔ),而后結(jié)合用戶的使用流程進(jìn)行功能設(shè)計(jì)的優(yōu)化可以改善。

其它類似于產(chǎn)品運(yùn)營(yíng)、題庫、產(chǎn)品bug的問題,同樣需要產(chǎn)品及運(yùn)營(yíng)人員發(fā)現(xiàn)之后,及時(shí)展開具體調(diào)研并制定相應(yīng)的方案去進(jìn)行解決。

6. 技術(shù)分析

拍照搜題功能,從技術(shù)的實(shí)現(xiàn)角度上來看,主要有兩種方式。

第一種方式是以圖搜圖。即平臺(tái)中的題庫同樣按照?qǐng)D片方式存儲(chǔ),則當(dāng)平臺(tái)處理一個(gè)用戶拍攝上傳的解題需求時(shí),算法通過計(jì)算用戶題目圖片的特征,并進(jìn)行搜索排序,從題庫中找到對(duì)應(yīng)的最相似特征的圖片,則該圖片即為用戶所搜索的題目。

這種方案本質(zhì)上是基于計(jì)算機(jī)視覺特征與機(jī)器學(xué)習(xí)算法的匹配檢索技術(shù)。

但這種方式的不足在于,一方面系統(tǒng)的題庫需要以圖片的形式存儲(chǔ),消耗的硬件空間較大,而且計(jì)算效率較低,性價(jià)比較低。

另一方面,對(duì)于兩道題目而言,基于圖片維度特征的比對(duì),進(jìn)而界定文字題目的相似度,和直接基于文本特征進(jìn)行題目相似度的比對(duì),必然還是后者的準(zhǔn)確率要更為可靠。

因而,作業(yè)幫采用的是另一種基于OCR技術(shù)和深度學(xué)習(xí)結(jié)合的技術(shù)方案。

OCR(Optical Character Recognition),指的是電子設(shè)備(如掃描儀或數(shù)碼相機(jī))檢查紙上的字符,通過檢測(cè)暗、亮的模式確定其形狀,而后利用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字描述的過程。

通俗地講,就是針對(duì)印刷體字符,采用光學(xué)方式,將紙質(zhì)文檔中的文字轉(zhuǎn)換為黑白點(diǎn)陣的圖像文件,并通過識(shí)別軟件將圖像中的文字轉(zhuǎn)換成文本格式,供文字處理軟件進(jìn)行加工的一項(xiàng)技術(shù)。

則基于上述定義,拍照搜題的過程,就是首先利用OCR,將圖片中的題目處理識(shí)別成文字,而后根據(jù)用戶的題目文本和平臺(tái)數(shù)據(jù)庫中的題庫比對(duì),找到最為相似的TOP 5(作業(yè)幫提供5個(gè)選項(xiàng))。

OCR處理的過程主要包括以下幾個(gè):

(1)圖像輸入及預(yù)處理:針對(duì)不同格式的圖像輸入,進(jìn)行必要的預(yù)處理。

預(yù)處理過程首先進(jìn)行二值化,即將彩色圖像轉(zhuǎn)換為黑白圖像,主要是為了剔除掉一些冗余特征,只留下重要的特征。

其次進(jìn)行噪聲去除。因?yàn)閳D片二值化之后,可能在圖片中出現(xiàn)很多小黑點(diǎn)或其它噪聲類的附著,會(huì)影響后續(xù)的識(shí)別,所以要進(jìn)行必要的過濾處理。

最后進(jìn)行傾斜校正。因?yàn)橛脩粼谂恼盏倪^程中,可能出于拍攝的技術(shù)、環(huán)境等客觀因素的影響,照片的角度不利于最終的識(shí)別,因此需要進(jìn)行必要的傾斜校正以保證圖片水平。

(2)版面分析:直觀來講,這一步就是對(duì)圖片中的文本進(jìn)行段落、每一行的切分。

(3)字符切割:將圖片按照行和列進(jìn)行劃分,則切割后字符就變成了自己一個(gè)字。

(4)字符識(shí)別:通過機(jī)器學(xué)習(xí)或深度學(xué)習(xí),進(jìn)行文字的識(shí)別。

(5)版面恢復(fù):對(duì)識(shí)別后的文字,保持段落、行及文字間的相對(duì)位置不變。

而在文字識(shí)別的過程中,目前更為常用的方法是基于深度學(xué)習(xí)算法。深度學(xué)習(xí)算法識(shí)別單個(gè)文字的過程如圖所示:

【AI產(chǎn)品】超長(zhǎng)文詳解作業(yè)幫產(chǎn)品邏輯和技術(shù)原理

如圖,經(jīng)過OCR預(yù)處理并分割之后,對(duì)一個(gè)文字而言,基于深度學(xué)習(xí)方法的識(shí)別,首先對(duì)其進(jìn)行卷積操作提取特征,而后進(jìn)行下采樣操作,保留更重要的特征,而后繼續(xù)進(jìn)行卷積和下采樣操作之后,將最后一層下采樣操作獲得的特征輸送至全連接層進(jìn)行處理并最終輸出其概率分布,從中可見,最終以98%的置信度對(duì)當(dāng)前文字判定為“運(yùn)”。

對(duì)其它文字的識(shí)別亦同理,當(dāng)前基于深度學(xué)習(xí)的文字識(shí)別,算法準(zhǔn)確率通常達(dá)到99%以上。

技術(shù)關(guān)鍵詞:OCR 深度學(xué)習(xí)識(shí)別文字。

7. 功能擴(kuò)展

同時(shí),基于相近的技術(shù),作業(yè)幫對(duì)應(yīng)用進(jìn)行了擴(kuò)展。

他們?yōu)榱藵M足家長(zhǎng)批改作業(yè)、輔導(dǎo)孩子的需求,進(jìn)一步開發(fā)了具有針對(duì)性的家長(zhǎng)端。

在家長(zhǎng)端,主打的特色功能是口算批改和作文搜索,則該需求的指向性更為明顯,背后的技術(shù)原理和流程本質(zhì)上和作業(yè)幫也是比較相似的,但家長(zhǎng)版的整體體驗(yàn)更加簡(jiǎn)潔,因?yàn)閷?duì)于家長(zhǎng)而言,更多的是起到輔助和陪伴的角色。

具體的體驗(yàn)在這里就不贅述了,感興趣的小伙伴可私底下悄咪咪去體驗(yàn)一把。

在這里特別提及家長(zhǎng)版是因?yàn)椋隗w驗(yàn)AI類產(chǎn)品的過程中發(fā)現(xiàn),其實(shí)人工智能產(chǎn)品的設(shè)計(jì)中和傳統(tǒng)的產(chǎn)品設(shè)計(jì)還是有很多類似的地方。歸結(jié)到底還是對(duì)用戶需求的把握,有的時(shí)候基于同一項(xiàng)或相近的技術(shù),可以解決很多用戶的不同需求。所以有的時(shí)候,如果產(chǎn)品設(shè)計(jì)人員過度重視算法和技術(shù)實(shí)現(xiàn)的細(xì)節(jié)反而會(huì)使得我們忽略了用戶的需求。

換一個(gè)角度,許多人說目前人工智能算法的應(yīng)用,其瓶頸在于找到落地的場(chǎng)景作為切入點(diǎn)。那么我想對(duì)這些產(chǎn)品分析體驗(yàn)的過程,就是要求產(chǎn)品或技術(shù)人員結(jié)合用戶-場(chǎng)景-需求及功能目的、功能邏輯的分析之后可以懂得——

某一些算法通過運(yùn)用什么樣的流程設(shè)計(jì),解決了哪些人的哪些問題,從而當(dāng)面臨新的需求時(shí),學(xué)會(huì)遷移借鑒某些產(chǎn)品已經(jīng)驗(yàn)證過的算法及功能流程的設(shè)計(jì),這樣的體驗(yàn)可能才具有價(jià)值,希望我們可以努力把這件事做得更好!

總結(jié)

本期主要體驗(yàn)了作業(yè)幫的“拍照搜題”,從中我們看到,基于OCR和深度學(xué)習(xí)技術(shù)的結(jié)合,人工智能在K12教育上也發(fā)揮了巨大的潛力,在未來不斷地發(fā)展和技術(shù)完善中,作業(yè)幫可想象的空間也許不局限于K12,甚至是成人教育也未可知。

作業(yè)幫再一次證明,科學(xué)技術(shù)本身沒有溫度和創(chuàng)造力,而真正煥發(fā)無窮力量的是產(chǎn)品。

 

作者:Luna,公眾號(hào):有三AI,一個(gè)專注于人工智能技術(shù)與產(chǎn)品落地的公眾號(hào),希望可以和熱愛AI的人有更深入交流,一起見證AI改變生活!

本文由 @ Luna 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自網(wǎng)絡(luò)

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 故事三,最后一句話有錯(cuò)別字,讀不通順

    來自河南 回復(fù)