AI應(yīng)用實(shí)例分析——文本糾錯(cuò)
編輯導(dǎo)語(yǔ):AI在現(xiàn)實(shí)中的應(yīng)用有很多,你有沒(méi)有想過(guò),它還可以進(jìn)行文本糾錯(cuò)呢?傳統(tǒng)的校對(duì)既耗時(shí)又枯燥,通過(guò)AI糾錯(cuò),不僅能更快完成,還能提高準(zhǔn)確度。那么AI“文本糾錯(cuò)”背后的原理是什么呢?和我一起看看吧!
前面跟大家分享了AI開(kāi)放平臺(tái)的相關(guān)內(nèi)容,之后想圍繞AI應(yīng)用實(shí)例這塊跟大家分享交流,這節(jié)主要講述跟NLP相關(guān)的一個(gè)應(yīng)用實(shí)例——“文本糾錯(cuò)”。
一、背景
雖然這幾年短視頻在內(nèi)容傳播方面發(fā)展得很火,但是文稿仍然占據(jù)重要地位。而文稿傳播最重要的一點(diǎn)就是信息的準(zhǔn)確性,尤其是一些有知名度的正式平臺(tái)更是會(huì)在文稿發(fā)送前進(jìn)行校對(duì)修正。
傳統(tǒng)的人工校對(duì)工作量是非常大的,一篇5000字的文稿完成校對(duì)差不多需要1-2個(gè)小時(shí),對(duì)于校稿人員來(lái)說(shuō)既耗時(shí)又枯燥。有一家內(nèi)容平臺(tái)就提出,希望我們通過(guò)AI能力提供快速校對(duì)工具,主要針對(duì)中文文稿,幫助校稿人員和編輯人員減少內(nèi)容錯(cuò)誤。
為了滿(mǎn)足該需求,我們基于NLP技術(shù)提供了文本糾錯(cuò)服務(wù)。
二、關(guān)鍵技術(shù)
文本糾錯(cuò)中用到的技術(shù)的前世今生在這不過(guò)多介紹了,目前文本糾錯(cuò)的主流方向還是使用機(jī)器學(xué)習(xí)的方式來(lái)完成,其中需要用到的核心技術(shù)主要包括語(yǔ)言知識(shí)學(xué)習(xí)、上下文理解和知識(shí)計(jì)算。
- 語(yǔ)言知識(shí)學(xué)習(xí):可以理解為是對(duì)語(yǔ)言規(guī)則等先驗(yàn)知識(shí)的學(xué)習(xí),通過(guò)學(xué)習(xí)詞法、句法等規(guī)則進(jìn)行語(yǔ)言模型構(gòu)建,例如中英文的主謂賓結(jié)構(gòu)就是不一樣的。
- 上下文理解:是指分析錯(cuò)誤點(diǎn)上下文語(yǔ)境和語(yǔ)義,從糾錯(cuò)候選中選擇最合適的。尤其是中文,相同的詞匯在不同語(yǔ)境中往往表達(dá)不同的含義。
- 知識(shí)計(jì)算:知識(shí)計(jì)算主要包括關(guān)聯(lián)知識(shí)計(jì)算和文本理解,關(guān)聯(lián)知識(shí)主要是通過(guò)對(duì)全局知識(shí)的統(tǒng)計(jì)來(lái)實(shí)現(xiàn)糾錯(cuò),可以是局部不完整語(yǔ)句的補(bǔ)充。文本理解是通過(guò)統(tǒng)計(jì)理解全局句子內(nèi)容,解決低頻領(lǐng)域知識(shí)的泛化問(wèn)題。
三、產(chǎn)品設(shè)計(jì)
1. 應(yīng)用場(chǎng)景
(1)用戶(hù)場(chǎng)景:審稿或者編輯人員輸入中文文字信息,系統(tǒng)自動(dòng)糾錯(cuò),并給出修改建議,審稿人員對(duì)錯(cuò)誤快速修訂。
(2)應(yīng)用邊界:
- 支持用詞錯(cuò)誤檢測(cè),針對(duì)音近、形近的錯(cuò)字和別字進(jìn)行糾正
- 支持句子級(jí)錯(cuò)誤檢測(cè),主要是針對(duì)句子中出現(xiàn)的多字、少字等錯(cuò)誤,相對(duì)難度校大。
- 支持場(chǎng)景類(lèi)錯(cuò)誤糾正,這類(lèi)錯(cuò)誤需要具備一些特定領(lǐng)域的知識(shí)才能識(shí)別糾錯(cuò),所以盡量支持。
2. 產(chǎn)品定位
- 產(chǎn)品定位:為應(yīng)用工具型產(chǎn)品,實(shí)現(xiàn)中文文本自動(dòng)糾錯(cuò)功能。
- 用戶(hù)定位:滿(mǎn)足兩類(lèi)B端用戶(hù),第一類(lèi)針對(duì)具備自主的文稿編輯工具,提供API服務(wù),與現(xiàn)有系統(tǒng)進(jìn)行改造融合;第二類(lèi)是針對(duì)缺少文稿編輯工具的用戶(hù),提供web頁(yè)面功能。
3. 產(chǎn)品業(yè)務(wù)流程
產(chǎn)品核心業(yè)務(wù)流程主要是產(chǎn)品端和算法端的交互,具體業(yè)務(wù)流程如下:
4. 產(chǎn)品功能設(shè)計(jì)
(1)頁(yè)面功能設(shè)計(jì)
頁(yè)面核心功能主要包括如下:支持內(nèi)容上傳、內(nèi)容審查、結(jié)果確認(rèn)和內(nèi)容下載。
主要頁(yè)面設(shè)計(jì)如下:
(2)API接口設(shè)計(jì)
包括內(nèi)容糾錯(cuò)請(qǐng)求接口和結(jié)果回調(diào)接,分別用于內(nèi)容審查糾錯(cuò)和結(jié)果返回,以下描述主要的輸入和輸出參數(shù):
- 輸入:接口鑒權(quán)、文本內(nèi)容、文本編碼格式等。
- 輸出:文本分析結(jié)果,包括源文本、糾錯(cuò)文本、文本位置,置信度。
5. 評(píng)估指標(biāo)
產(chǎn)品上線前,需要對(duì)產(chǎn)品的性能進(jìn)行評(píng)估,主要包括三個(gè)指標(biāo):誤報(bào)率、召回率和處理時(shí)間。
- 誤報(bào)率:代表正確的句子被改錯(cuò)的比率,等于正確句子被糾錯(cuò)的個(gè)數(shù)/正確句子的個(gè)數(shù)。
- 召回率:代表錯(cuò)誤的句子被全部糾正的比率,等于含有錯(cuò)誤的句子被改正的數(shù)量/所有含錯(cuò)誤的句子數(shù)量。
- 處理性能:代表處理多少個(gè)字符的耗時(shí),單位是千字耗時(shí),s/千字符。
四、結(jié)論
文本糾錯(cuò)是NLP非?;A(chǔ)的場(chǎng)景應(yīng)用,但是實(shí)際業(yè)務(wù)價(jià)值卻是很大的。在具體業(yè)務(wù)場(chǎng)景應(yīng)用方面不僅可以用在在媒體編輯、電子病歷等輸入文本糾錯(cuò),還可以應(yīng)用于語(yǔ)音搜索、客服問(wèn)答等業(yè)務(wù)。
本文由@Eric_d 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自 Unsplash,基于CC0協(xié)議
專(zhuān)欄作家
Eric_d,人人都是產(chǎn)品經(jīng)理專(zhuān)欄作家。關(guān)注AI、大數(shù)據(jù)等領(lǐng)域,擅長(zhǎng)需求分析、產(chǎn)品流程和架構(gòu)設(shè)計(jì)等,日常喜歡徒步。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
我的天呢,現(xiàn)在真的能智能糾錯(cuò)嗎,這可真的是太神奇了,看來(lái)又要有一部分人做好轉(zhuǎn)行的準(zhǔn)備啦~
已經(jīng)在用了啊,但是還需要人工去做復(fù)查,確保不會(huì)被誤判,不過(guò)相對(duì)純?nèi)斯み€是會(huì)很大提供工作效率的啦
ps:闊以轉(zhuǎn)行做AI工具啊~,hhh
??!那以后會(huì)不會(huì)校對(duì)就沒(méi)有工作了啊,AI能校對(duì)語(yǔ)法錯(cuò)別字,但校對(duì)不了感情的表達(dá)呀
不會(huì)的啊,除非算法能做到萬(wàn)無(wú)一失,不然還是需要人工的參與,只是人工效率提升了呀~
改正錯(cuò)字還可以,但是如果技術(shù)不夠,那就不是一項(xiàng)好的想法了,未來(lái)該不會(huì)是AI評(píng)改作文吧
應(yīng)該不至于全靠AI的,畢竟還有很多情感問(wèn)題是AI解決不了的
網(wǎng)絡(luò)上太多的諧音梗很容易造成詞匯正確拼寫(xiě)的混淆,真真假假分不清了現(xiàn)在
是的啦,很多諧音梗是容易造成誤判,主要還是實(shí)際場(chǎng)景要不要將這個(gè)諧音詞當(dāng)做是錯(cuò)誤的,比如數(shù)智化,也基本被接受了,所以可以考慮訓(xùn)練時(shí)注意或者加入白名單