AI與產(chǎn)品| NLP技術(shù)及其在百度APP中的應(yīng)用
編輯導(dǎo)語(yǔ):NLP的技術(shù)應(yīng)用十分廣泛,應(yīng)用的場(chǎng)景也十分廣泛。本篇文章作者分享了NLP的四大經(jīng)典任務(wù)——文本分類、文本匹配、序列標(biāo)注和文本生成,介紹了這幾個(gè)任務(wù)以及相關(guān)的業(yè)務(wù),感興趣的一起來(lái)看看吧。
百度文心(ERNIE)是大規(guī)模語(yǔ)義理解技術(shù)與平臺(tái),依托百度深度學(xué)習(xí)平臺(tái)飛槳打造,集先進(jìn)的預(yù)訓(xùn)練模型、全面的NLP算法集、端到端開(kāi)發(fā)套件和平臺(tái)化服務(wù)于一體,提供一站式NLP開(kāi)發(fā)與服務(wù),讓開(kāi)發(fā)者更簡(jiǎn)單、高效地定制企業(yè)級(jí)文本模型。
通過(guò)百度文心的NLP技術(shù),現(xiàn)在的百度APP不僅是搜索引擎,還有各種生活化服務(wù)以及智能應(yīng)用場(chǎng)景。
一、NLP及其任務(wù)介紹
要走進(jìn)百度,我們先來(lái)了解一下NLP是什么?
NLP是Natural Language Processing的縮寫,中文意思是自然語(yǔ)言處理,是人工智能和語(yǔ)言學(xué)領(lǐng)域的分支學(xué)科。
此領(lǐng)域探討如何處理及運(yùn)用自然語(yǔ)言;自然語(yǔ)言處理包括多方面和步驟,基本有認(rèn)知、理解、生成等部分。
通俗點(diǎn)理解,NLP就是讓機(jī)器理解自然語(yǔ)言(人類的文字),然后讓機(jī)器處理,并進(jìn)行運(yùn)用。
NLP應(yīng)用非常廣泛,例如搜索引擎,機(jī)器翻譯,各種輸入法如搜狗、微軟、谷歌等以及帶有語(yǔ)音識(shí)別的計(jì)算機(jī)和手機(jī)。
NLP有四大經(jīng)典任務(wù),文本分類、文本匹配、序列標(biāo)注和文本生成。接下來(lái)我來(lái)為您一一介紹這幾個(gè)任務(wù)及其相關(guān)應(yīng)用:
1. 文本分類
文本分類是指用計(jì)算機(jī)對(duì)文本(或其他實(shí)體)按照一定的分類體系或標(biāo)準(zhǔn)進(jìn)行自動(dòng)分類標(biāo)記。為了方便理解,我們用下面的方式介紹:
- 輸入用文本X表示,輸出標(biāo)簽用Y表示
- 如果Y表示X屬于某一個(gè)類別的概率,或者一組類別的概率分布,則可抽象成文本分類問(wèn)題。
如上圖是文本分類的幾種應(yīng)用案例。文本分類可以分為單標(biāo)簽分類、多標(biāo)簽分類和句對(duì)分類。
在情感分析的例子里,我們要判斷一句話是消極的還是積極的,比如評(píng)價(jià)一個(gè)房子“房間太小,其他的都一般”,它要么屬于消極要么屬于積極,是一種二分類,也叫單標(biāo)簽分類。
還有一類問(wèn)題是新聞主題分類,比如說(shuō)“中美元首就經(jīng)貿(mào)關(guān)系通話“,這個(gè)新聞標(biāo)題同時(shí)屬于時(shí)政、國(guó)際和財(cái)經(jīng)三個(gè)類別,這三個(gè)類別是相互獨(dú)立的,可以同時(shí)出現(xiàn),所以是多標(biāo)簽分類。
還有一類是文本蘊(yùn)含,它輸入的不是一段文本而是兩段文本,要判斷兩段文本之間是否存在邏輯上的包含關(guān)系,是相關(guān)關(guān)系、對(duì)立關(guān)系還是說(shuō)中立的,沒(méi)有任何關(guān)系。比如”大家覺(jué)得她好看嗎“和”大家覺(jué)得跑男好看嗎“這兩句話就是中立的,沒(méi)有任何關(guān)系。
2. 文本匹配
- 輸入文本用X表示,輸出標(biāo)簽用Y表示
- 如果X是兩段文本(X1,X2), Y表示二者的相似度,則可抽象為文本匹配問(wèn)題。
如圖兩句話“喜歡打籃球的男生喜歡什么樣的女生”和“愛(ài)打籃球的男生喜歡什么樣的女生”這兩句話基本意思是一樣的,所以是相似的,標(biāo)簽Y為1。
若不相似,則為0?;蛘哂幸欢ǖ南嗨贫?,則在0-1之間打一個(gè)分。
文本聚類問(wèn)題可以通過(guò)文本相似度問(wèn)題進(jìn)行處理。而相似度是兩個(gè)文本之間語(yǔ)義層面距離的遠(yuǎn)近。
3. 序列標(biāo)注
- 輸入文本用X表示,輸出標(biāo)簽用Y表示;
- 如果X是一段文本, Y是一段與X等長(zhǎng)的文本, 且X與Y的每個(gè)字符一一對(duì)應(yīng),可抽象為序列標(biāo)注問(wèn)題。
序列標(biāo)注的一個(gè)經(jīng)典任務(wù)是命名實(shí)體識(shí)別。比如“海釣比賽地點(diǎn)在廈門與金門之間的海域”這句話,我們抽出兩個(gè)實(shí)體,廈門和金門,這兩個(gè)實(shí)體都是地址,我們就可以將其標(biāo)注為地址,而其他詞語(yǔ)標(biāo)注為非地址,用O表示。
分詞、詞性標(biāo)注、組塊分析、語(yǔ)義角色標(biāo)注、詞槽挖掘都是典型的序列標(biāo)注任務(wù)。
相信大家都做過(guò)閱讀理解,閱讀理解其實(shí)就可以理解為特殊的序列標(biāo)注,X是2段文本(X1,X2),分別表示正文篇章和問(wèn)題,Y是篇章中的一小段文本,表示對(duì)應(yīng)問(wèn)題的答案。
4. 文本生成
- 輸入文本用X表示,輸出標(biāo)簽用Y表示;
- 如果X是一段文本,Y是一段不定長(zhǎng)的文本,則可抽象為文本生成問(wèn)題。
最典型的文本生成問(wèn)題是機(jī)器翻譯。如圖例,我輸入的是一段英文,輸出的是一段其他語(yǔ)言的文字,這兩段文字的語(yǔ)言和詞可能不是那么一一對(duì)應(yīng)的,可能原語(yǔ)句賓語(yǔ)在前謂語(yǔ)在后,后面那段目標(biāo)語(yǔ)句可能是賓語(yǔ)在后謂語(yǔ)在前。
文本摘要、標(biāo)題生成、閑聊等都是典型的文本生成任務(wù)。
二、NLP應(yīng)用
NLP典型應(yīng)用場(chǎng)景有新聞咨詢推薦、商品評(píng)價(jià)分析、智能客服對(duì)話、社交言論分析、金融風(fēng)險(xiǎn)洞察等,業(yè)務(wù)的需求千差萬(wàn)別,所以場(chǎng)景的需求都是定制化的需求。
企業(yè)級(jí)NLP應(yīng)用要著重考慮三個(gè)指標(biāo),效率、效果和效能。
- 第一是效率,效率指的是開(kāi)發(fā)的效率,如人力成本、時(shí)間成本等,人效要越高越好。
- 第二是模型的效果,這是定制化需求里最關(guān)注的指標(biāo),有時(shí)候甚至?xí)挥?jì)成本一定要拿到最好的效果,因?yàn)橛袝r(shí)候模型效果高一兩個(gè)點(diǎn)就可能對(duì)公司或者集團(tuán)帶來(lái)巨大的收益。這樣就需要進(jìn)行高精度標(biāo)注數(shù)據(jù)以及專家級(jí)的經(jīng)驗(yàn)。
- 第三是效能,這是一個(gè)更加宏觀的點(diǎn),它關(guān)注的是應(yīng)用部署上的靈活,應(yīng)用為整體業(yè)務(wù)帶來(lái)的價(jià)值。它關(guān)注的是從產(chǎn)品和用戶的角度來(lái)說(shuō)帶來(lái)的收益。
三、百度文心(ERNIE)
ERNIE是百度開(kāi)創(chuàng)性提出的基于知識(shí)增強(qiáng)的持續(xù)學(xué)習(xí)語(yǔ)義理解框架,該框架將大數(shù)據(jù)預(yù)訓(xùn)練與多源豐富知識(shí)相結(jié)合,通過(guò)持續(xù)學(xué)習(xí)技術(shù),不斷吸收海量文本數(shù)據(jù)中詞匯、結(jié)構(gòu)、語(yǔ)義等方面的知識(shí),實(shí)現(xiàn)模型效果不斷進(jìn)化。
ERNIE在情感分析、文本匹配、自然語(yǔ)言推理、詞法分析、閱讀理解、智能問(wèn)答等16個(gè)公開(kāi)數(shù)據(jù)集上全面顯著超越世界領(lǐng)先技術(shù),在國(guó)際權(quán)威的通用語(yǔ)言理解評(píng)估基準(zhǔn)GLUE上,得分首次突破90分,獲得全球第一。
1. ERNIRE2.0(持續(xù)學(xué)習(xí)語(yǔ)義理解框架)
ERNIRE2.0是基于持續(xù)學(xué)習(xí)的語(yǔ)義理解預(yù)訓(xùn)練框架,使用多任務(wù)學(xué)習(xí)增量式構(gòu)建預(yù)訓(xùn)練任務(wù)。在ERNIE2.0中,新構(gòu)建的預(yù)訓(xùn)練任務(wù)類型可以無(wú)縫的加入訓(xùn)練框架,持續(xù)的進(jìn)行語(yǔ)義理解學(xué)習(xí)。 通過(guò)新增的實(shí)體預(yù)測(cè)、句子因果關(guān)系判斷、文章句子結(jié)構(gòu)重建等語(yǔ)義任務(wù),ERNIE 2.0 語(yǔ)義理解預(yù)訓(xùn)練模型從訓(xùn)練數(shù)據(jù)中獲取了詞法、句法、語(yǔ)義等多個(gè)維度的自然語(yǔ)言信息,極大地增強(qiáng)了通用語(yǔ)義表示能力。
ERNIE2.0的優(yōu)點(diǎn)就在于持續(xù)學(xué)習(xí),不斷的基于海量的數(shù)據(jù)以及先驗(yàn)的知識(shí)集成到ERNIE模型中,不斷的在不同任務(wù)中訓(xùn)練來(lái)提升模型的效果,而且還不會(huì)忘記。
在多任務(wù)學(xué)習(xí)或者持續(xù)學(xué)習(xí)中,模型特別容易發(fā)生災(zāi)難性遺忘。在一個(gè)場(chǎng)景下訓(xùn)練好了模型,在另一個(gè)模型下效果可能就不好了。甚至本來(lái)原來(lái)場(chǎng)景下效果比較好的模型,在新的場(chǎng)景下訓(xùn)練后,再去之前的場(chǎng)景下得到的效果是災(zāi)難性下降的。所以就需要多任務(wù)學(xué)習(xí)、持續(xù)性學(xué)習(xí),使得模型有非常好的泛化能力和通用效果。
2. ERNIE 3.0 (基于知識(shí)增強(qiáng)的多范式統(tǒng)一預(yù)訓(xùn)練框架)
ERNIE3.0是基于知識(shí)增強(qiáng)的多范式統(tǒng)一預(yù)訓(xùn)練框架。
在 ERNIE 3.0 中,自回歸和自編碼網(wǎng)絡(luò)被創(chuàng)新型地融合在一起進(jìn)行預(yù)訓(xùn)練,其中自編碼網(wǎng)絡(luò)采用 ERNIE 2.0 的多任務(wù)學(xué)習(xí)增量式構(gòu)建預(yù)訓(xùn)練任務(wù),持續(xù)的進(jìn)行語(yǔ)義理解學(xué)習(xí)。
通過(guò)新增的實(shí)體預(yù)測(cè)、句子因果關(guān)系判斷、文章句子結(jié)構(gòu)重建等語(yǔ)義任務(wù)。
同時(shí),自編碼網(wǎng)絡(luò)創(chuàng)新性地增加了知識(shí)增強(qiáng)的預(yù)訓(xùn)練任務(wù)。自回歸網(wǎng)絡(luò)基于 Tranformer-XL 結(jié)構(gòu),支持長(zhǎng)文本語(yǔ)言模型建模。
多范式的統(tǒng)一預(yù)訓(xùn)練模式使得 ERNIE 3.0 能夠在理解任務(wù)、生成任務(wù)和零樣本學(xué)習(xí)任務(wù)上獲取 SOTA 的表現(xiàn)。
ERNIE2.0的優(yōu)點(diǎn)就在于基于同一個(gè)網(wǎng)絡(luò)進(jìn)行多種自然語(yǔ)言處理學(xué)習(xí)范式的統(tǒng)一學(xué)習(xí),以及加入了大規(guī)模知識(shí)圖譜類數(shù)據(jù)。
四、百度文心NLP技術(shù)在百度APP中的應(yīng)用
百度文心NLP大模型體系涵蓋基礎(chǔ)大模型、任務(wù)大模型和行業(yè)大模型。
百度文心的基礎(chǔ)大模型,包括詞向量、句子理解、文章理解這些基礎(chǔ)技術(shù),另外還提供多模態(tài)、多語(yǔ)言、圖理解的拓展技術(shù)。
第二類是任務(wù)大模型,如文本匹配場(chǎng)景、文本生成場(chǎng)景等,這些是跟任務(wù)跟應(yīng)用相關(guān)的預(yù)訓(xùn)練模型。
第三類是行業(yè)大模型,包括ERNIE健康、ERNIE金融等等。
在預(yù)訓(xùn)練模型探索好之后,文心會(huì)有一些輕量化技術(shù)幫助進(jìn)行模型壓縮、結(jié)構(gòu)化搜索和模型蒸餾。使得原來(lái)非常大的、非常重的模型變成輕量級(jí)模型,從而更好的應(yīng)用于生產(chǎn)實(shí)踐。
使用百度文心NLP技術(shù)可以為產(chǎn)品賦能。比如百度的搜索引擎,新聞咨詢推薦,人工智能客服,以及百度健康,百度律師等等都用到了百度文心的NLP技術(shù)。
1. 百度搜索引擎
今天的用戶完全可以直接輸入任何想到的需求或者問(wèn)題,甚至直接通過(guò)話筒向百度語(yǔ)音助手提問(wèn)。
譬如用戶可以搜“天氣”、“日歷”、“機(jī)票”、“匯率”這樣的模糊需求,百度會(huì)直接在搜索結(jié)果呈現(xiàn)結(jié)果。
2. 百度新聞
通過(guò)文本分類技術(shù),可以將新聞進(jìn)行分類顯示;通過(guò)新聞?wù)夹g(shù),可以準(zhǔn)確的為針對(duì)待發(fā)布的新聞進(jìn)行摘要,從而提高傳統(tǒng)人工提煉摘要的效率。
3. 百度問(wèn)答
當(dāng)我們?cè)诎俣戎兴阉鳌盎ㄉl(fā)芽了還能吃嗎”,得到的答案已不再是互聯(lián)網(wǎng)上五花八門的原始網(wǎng)頁(yè)答案,而是讓人一目了然的匯總式答案摘要。
除了這樣的“一問(wèn)一答”,用戶還可以與百度對(duì)話,問(wèn)它一個(gè)又一個(gè)問(wèn)題,NLP最終可以讓用戶使用自然語(yǔ)言進(jìn)行搜索,并且采用多輪交互的方式來(lái)逐步澄清和滿足需求,從而完成深度決策型的搜索任務(wù)。
4. 百度健康
依托百度文心 ERNIE 先進(jìn)的知識(shí)增強(qiáng)預(yù)訓(xùn)練語(yǔ)言模型打造,通過(guò)醫(yī)療知識(shí)增強(qiáng)技術(shù)進(jìn)一步學(xué)習(xí)海量的醫(yī)療數(shù)據(jù),精準(zhǔn)地掌握了專業(yè)的醫(yī)學(xué)知識(shí)。
同時(shí),通過(guò)醫(yī)療問(wèn)答匹配任務(wù)學(xué)習(xí)病患病狀描述與醫(yī)生專業(yè)治療方案的對(duì)應(yīng)關(guān)系,獲得醫(yī)療實(shí)體知識(shí)之間的內(nèi)在聯(lián)系。
實(shí)現(xiàn)智能診療對(duì)話模型,智能分析預(yù)診導(dǎo)診,通過(guò)AI學(xué)習(xí)構(gòu)建適合臨床輔助診斷的體驗(yàn)流程,深度將篩查、自測(cè)、診斷等多環(huán)節(jié)嵌入到診療流程中,自然、及時(shí)、流暢的應(yīng)答患者提問(wèn),極大的提升了診療效率。
五、小結(jié)
技術(shù)是百度的基因,技術(shù)和數(shù)據(jù)積累形成的用戶、產(chǎn)品和品牌優(yōu)勢(shì)是百度的護(hù)城河。
NLP則是百度技術(shù)的基石,它賦予了百度技術(shù)“智能化”的基因,在過(guò)去智能化的搜索讓百度越來(lái)越好用為其在中文搜索市場(chǎng)奠定了王者地位。
在未來(lái)智能化連接用戶與服務(wù)成為百度與阿里騰訊等巨頭最大的區(qū)隔時(shí),NLP技術(shù)只會(huì)更加重要。
因此毫不夸張地說(shuō),NLP就是百度的技術(shù)基石。
本文由 @灼華一品 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!