為看一看及搜一搜“去污”,AI怎么做到的?

Darcy
0 評(píng)論 8334 瀏覽 5 收藏 17 分鐘
🔗 技术知识、行业知识、业务知识等,都是B端产品经理需要了解和掌握的领域相关的知识,有助于进行产品方案设计和评估

編輯導(dǎo)讀:網(wǎng)上沖浪,我們時(shí)常會(huì)看見(jiàn)一些低俗色情的不良內(nèi)容,這時(shí)候就需要平臺(tái)介入清除。本文作者以微信的搜一搜和看一看為例,介紹低俗色情識(shí)別任務(wù)在從看一看業(yè)務(wù)遷移到搜一搜業(yè)務(wù)中遇到的一些問(wèn)題、思考以及所做的一些嘗試。

本文主要介紹低俗色情識(shí)別任務(wù)在從看一看業(yè)務(wù)遷移到搜一搜業(yè)務(wù)中遇到的一些問(wèn)題、思考以及所做的一些嘗試。本文嘗試分析一下看一看與搜一搜場(chǎng)景的差異以及因差異導(dǎo)致的應(yīng)用遷移困難;進(jìn)而思考如何建立更好的分析機(jī)制和評(píng)價(jià)體系;最后在模型方面談一下基于Bert的一些遷移改進(jìn)與應(yīng)用;本文工作主要集中在短文本領(lǐng)域。

01 看一看與搜一搜場(chǎng)景的差異分析

1.?業(yè)務(wù)焦點(diǎn)的差異

在中心業(yè)務(wù)發(fā)展過(guò)程中,低俗色情識(shí)別最先應(yīng)用于看一看場(chǎng)景,主要包括公眾號(hào)文章、視頻和新聞等內(nèi)容源。在基于上述內(nèi)容源的推薦場(chǎng)景中,由于內(nèi)容以PGC生產(chǎn)為主,因此低俗色情問(wèn)題的90%以上都是輕微低俗擦邊,完全色情的問(wèn)題比例很?。唤?jīng)過(guò)我們的努力,擦邊程度以上的問(wèn)題被控制在較低的水平(可參考之前的看一看介紹文章)。

隨著搜索業(yè)務(wù)的發(fā)展,搜索場(chǎng)景的環(huán)境凈化也變得刻不容緩,從用戶(hù)query的提示、相關(guān)搜索到搜索結(jié)果的展示,都需要低俗色情識(shí)別來(lái)進(jìn)行過(guò)濾。與看一看推薦場(chǎng)景不同的是,推薦是平臺(tái)的主動(dòng)行為,所以搜索場(chǎng)景90%以上的注意力更關(guān)注色情內(nèi)容的識(shí)別過(guò)濾,推薦分發(fā)擦邊內(nèi)容是不可以的。(至少在看一看的調(diào)性中如此)

2.?數(shù)據(jù)的差異

在從推薦場(chǎng)景轉(zhuǎn)移到搜索場(chǎng)景中,我們面對(duì)的語(yǔ)料也發(fā)生了一些質(zhì)變,從主要PGC生產(chǎn)的較標(biāo)準(zhǔn)的PGC語(yǔ)料轉(zhuǎn)為了全網(wǎng)開(kāi)放領(lǐng)域(例如搜索query與搜狗網(wǎng)頁(yè)),色情問(wèn)題規(guī)模也是相較之前有了爆發(fā)式的增長(zhǎng)。因此看一看中多個(gè)數(shù)據(jù)源的模型在遷移到開(kāi)放的搜索語(yǔ)料時(shí),存在很大的領(lǐng)域差異,嚴(yán)重色情問(wèn)題的召回不足,導(dǎo)致遷移應(yīng)用的效果較差。

3.?問(wèn)題解決環(huán)境的差異

在問(wèn)題發(fā)現(xiàn)上,看一看中有較完備的人工輪詢(xún)機(jī)制,同時(shí)用戶(hù)負(fù)反饋也可以提供很好的問(wèn)題發(fā)現(xiàn)和樣本。而到了搜一搜這里,相較海量用戶(hù)query及網(wǎng)頁(yè)結(jié)果,色情case的比例很低,輪詢(xún)機(jī)制的效率極低(比如推薦中輪詢(xún)100個(gè)可以發(fā)現(xiàn)1個(gè)問(wèn)題case,而搜索匯總可能需要輪詢(xún)1k個(gè));搜索也缺少像推薦那樣用戶(hù)對(duì)單個(gè)內(nèi)容的即時(shí)負(fù)反饋。在問(wèn)題分布上,由于推薦系統(tǒng)的機(jī)制及用戶(hù)習(xí)慣,天然的會(huì)將擦邊內(nèi)容推到點(diǎn)擊top的集合中;而這一效應(yīng)在搜索中并不明顯,依舊十分稀疏。由于搜索場(chǎng)景的問(wèn)題稀疏,長(zhǎng)尾問(wèn)題更多(各種可能的作弊、黑話(huà)),這里不僅要跟黑產(chǎn)做對(duì)抗,還需要與用戶(hù)的輸入斗智斗勇,在效果評(píng)價(jià)上(主要是召回)也更加困難。

02 如何更好地分析樣本與評(píng)價(jià)效果

如上文所述,由于兩個(gè)業(yè)務(wù)的差異導(dǎo)致原有一些模型遷移到搜索的語(yǔ)料上時(shí)效果較差,模型精度的提升一般相對(duì)容易,通過(guò)樣本清洗、誤分樣本的糾正及特征權(quán)重的調(diào)整(比如使用Lime輔助分析),可以較快的對(duì)精度進(jìn)行提升。而在面對(duì)開(kāi)放領(lǐng)域的query、網(wǎng)頁(yè)標(biāo)題時(shí),問(wèn)題的稀疏性、長(zhǎng)尾性以及問(wèn)題發(fā)現(xiàn)機(jī)制的不健全(或者說(shuō)低效)都導(dǎo)致了召回的提升是一個(gè)難題,同理召回的效果評(píng)價(jià)也更困難,因此這里也是主要探討對(duì)于樣本召回的分析,主要集中在query與搜狗網(wǎng)頁(yè)標(biāo)題。

在分析方法上,通過(guò)已有模型的baseline結(jié)合傳統(tǒng)的基于關(guān)鍵詞、embedding向量相似可以為我們提供一份較多的種子數(shù)據(jù)。在此基礎(chǔ)上,我們結(jié)合搜索業(yè)務(wù)的場(chǎng)景特點(diǎn)以及一些可用的知識(shí),嘗試了以下一些方法并取得了更好的效果。

1.?搜索引擎結(jié)果的分析

站在巨人的肩膀上,可以幫助我們快速取得提升。一些搜索引擎的搜索結(jié)果質(zhì)量以及展現(xiàn)的特征可以輔助我們擴(kuò)展語(yǔ)義與分析樣本。通過(guò)分析網(wǎng)址安全中心提醒、搜索結(jié)果數(shù)、相關(guān)搜索等特征可以幫助我們快速分析篩選一些疑似樣本。這個(gè)方法在色情小說(shuō)等問(wèn)題的運(yùn)用上有較好的效果。

同時(shí),搜索引擎的搜索結(jié)果以及相關(guān)搜索結(jié)果也可以幫助擴(kuò)展query語(yǔ)義以及一些變種,達(dá)到舉一反三的功效,在實(shí)踐中得以應(yīng)用。

2.?Query用戶(hù)改寫(xiě)串分析

用戶(hù)行為是我們做分析的一個(gè)利器,既然搜索場(chǎng)景沒(méi)有推薦那樣顯示的負(fù)反饋,那就通過(guò)分析用戶(hù)心理和行為為我們提供隱式的負(fù)反饋。這個(gè)idea的出發(fā)點(diǎn)很簡(jiǎn)單,用戶(hù)的搜索行為往往是連續(xù)的,直到得到想要的結(jié)果才會(huì)停止。那么在一次用戶(hù)的連續(xù)搜索行為中,我們可以利用用戶(hù)query的改寫(xiě)串來(lái)進(jìn)行批量分析,通過(guò)已有模型對(duì)改寫(xiě)串的打分可以高效的分析目前模型還不能解決的case。

由于個(gè)別字的改變(作弊)導(dǎo)致表面語(yǔ)義的飄逸,很容易逃過(guò)色情檢測(cè)。通過(guò)這類(lèi)作弊case,我們可以進(jìn)一步深挖搜索黑產(chǎn)所進(jìn)行的一些seo作弊操作,由session發(fā)現(xiàn)作弊進(jìn)而映射到uin,可以分析一批作弊用戶(hù)及其作弊query。與黑產(chǎn)的對(duì)抗在低質(zhì)識(shí)別工作中是永恒的話(huà)題,矛與盾的不斷升級(jí),不斷試探;而借助已有的能力并進(jìn)一步分析黑產(chǎn)用戶(hù)的搜索模式,可以幫助我們建立起良性的循環(huán)和有效的對(duì)抗升級(jí)。

3.?Query與點(diǎn)擊doc的聯(lián)動(dòng)分析

在實(shí)際業(yè)務(wù)中,由于query與網(wǎng)頁(yè)標(biāo)題語(yǔ)料的不同,文本長(zhǎng)度上,query偏超短文本而網(wǎng)頁(yè)標(biāo)題偏短文本;同時(shí)二者的表述等也存在領(lǐng)域差異,因此在業(yè)務(wù)中是訓(xùn)練了各自的模型。那么與query改寫(xiě)分析類(lèi)似的思路,結(jié)合已有模型的能力與用戶(hù)行為進(jìn)行樣本分析和補(bǔ)充。這里利用搜索引擎已自帶的query與結(jié)果的相關(guān)性加上用戶(hù)點(diǎn)擊這一強(qiáng)行為特征,尤其在色情領(lǐng)域上使得query與結(jié)果的相關(guān)性比大盤(pán)水平高出很多。那么通過(guò)query與點(diǎn)擊title的各自模型的預(yù)測(cè)得分,就可以較快的將不足的一方進(jìn)行補(bǔ)全優(yōu)化,實(shí)現(xiàn)多模型的聯(lián)動(dòng)升級(jí)。

4.?評(píng)價(jià)指標(biāo)

在效果評(píng)價(jià)上,我們一般采用精度、召回與F1值作為主要的效果評(píng)價(jià)指標(biāo),這里的難點(diǎn)主要在于召回評(píng)價(jià)上。因?yàn)樗岩凰褕?chǎng)景問(wèn)題數(shù)據(jù)的稀疏性和長(zhǎng)尾性,采用大盤(pán)隨機(jī)評(píng)測(cè)召回需要投入很多人力來(lái)獲取一個(gè)置信度較高的結(jié)果,因此我們盡量采用多個(gè)維度來(lái)體現(xiàn)模型的效果。通過(guò)比較迭代模型前后的diff勝出率可以實(shí)現(xiàn)自身的比較;通過(guò)引入其他開(kāi)放領(lǐng)域測(cè)試集輔助驗(yàn)證模型的泛化通用性。除此之外,我們的業(yè)務(wù)使用方還單獨(dú)分析了一批業(yè)務(wù)測(cè)試集,對(duì)算法側(cè)保持黑盒狀態(tài),用打比賽的方式來(lái)評(píng)價(jià)成績(jī)也是一個(gè)不錯(cuò)的選擇。

03 基于Bert的遷移學(xué)習(xí)改進(jìn)

在模型方面,可以說(shuō)Bert(及其各種升級(jí)版)是目前在大多數(shù)NLP任務(wù)中效果最佳的模型。在GPU資源充足的情況下,我們也優(yōu)先部署B(yǎng)ert提高業(yè)務(wù)效果,并在Bert的基礎(chǔ)上結(jié)合業(yè)務(wù)特點(diǎn)進(jìn)行一些模型創(chuàng)新。下面將從如何使用pivot詞改良Bert的預(yù)訓(xùn)練過(guò)程和如何利用業(yè)務(wù)中天然的多任務(wù)學(xué)習(xí)場(chǎng)景來(lái)提高模型最終效果這兩點(diǎn)來(lái)展開(kāi)介紹。

1.?基于可遷移Pivot詞的Bert遷移學(xué)習(xí)

目前對(duì)于Bert的應(yīng)用來(lái)說(shuō),大多情況(簡(jiǎn)單用法)都是直接在少量的標(biāo)注數(shù)據(jù)上去Finetune最后一層即可取得較好的效果。對(duì)于精細(xì)化的升級(jí)用法,會(huì)先在特定任務(wù)的語(yǔ)料上去精調(diào)預(yù)訓(xùn)練的語(yǔ)言模型,這樣的好處是可以讓模型更加適應(yīng)當(dāng)前任務(wù)的語(yǔ)言環(huán)境。而這一點(diǎn)在低俗色情問(wèn)題上是非常匹配且需要的,因?yàn)橐话鉈ert預(yù)訓(xùn)練語(yǔ)言模型的語(yǔ)料都是類(lèi)似維基百科這種較正常標(biāo)準(zhǔn)的內(nèi)容,缺少低俗色情里的很多低俗說(shuō)法、黑話(huà)、作弊等內(nèi)容(比如“干”“棒棒糖”等詞),這就使得預(yù)訓(xùn)練得到的語(yǔ)言模型缺少對(duì)這些一詞多義的理解,即基于上下文的語(yǔ)義理解,而這些的一詞多義正是我們這一特定任務(wù)最需要的。

對(duì)于Bert的優(yōu)化方向之一就是引入更多輔助任務(wù)以及外部知識(shí),對(duì)下游的知識(shí)類(lèi)任務(wù)或者包含NER相關(guān)的任務(wù)有直接的效果提升作用。與此思路類(lèi)似的是,我們引入了pivot詞的知識(shí),學(xué)術(shù)界有不少遷移學(xué)習(xí)的工作是基于pivot詞來(lái)提升不同領(lǐng)域之間的遷移效果,這在低俗色情問(wèn)題上同樣十分匹配,通過(guò)學(xué)習(xí)領(lǐng)域不變的pivot特征來(lái)橋接源領(lǐng)域和目標(biāo)領(lǐng)域,從而使得在源域上訓(xùn)練的模型可以適配目標(biāo)域。

我們的TPT(Transferable Pivot Transformer)模型分為兩部分,pivot選擇網(wǎng)絡(luò)以及mask pivot的預(yù)訓(xùn)練語(yǔ)言模型網(wǎng)絡(luò)(分別對(duì)應(yīng)模型示意圖的右半部分和左半部分)。在pivot選擇部分,為了優(yōu)化色情領(lǐng)域很多新詞或作弊詞的問(wèn)題(例如“輪軒”“好庠”等),我們采用基于字的bi-gram和tri-gram,通過(guò)已有標(biāo)注數(shù)據(jù)計(jì)算互信息MI獲取到一批權(quán)重高的pivot詞表。進(jìn)一步為了使得pivot詞更具可遷移性,我們通過(guò)訓(xùn)練pivot詞的領(lǐng)域分類(lèi)器來(lái)挑選出領(lǐng)域不可分(即可遷移)的最終pivot詞表。

在預(yù)訓(xùn)練語(yǔ)言模型階段,與傳統(tǒng)bert的mask策略不同的是,我們加入了針對(duì)pivot詞的mask策略,我們希望模型能更多的關(guān)注和學(xué)習(xí)到pivot詞在不同上下文語(yǔ)境中的語(yǔ)義。因此在訓(xùn)練語(yǔ)言模型的過(guò)程中,我們對(duì)于pivot詞大概率下進(jìn)行mask,小概率下保持不變;同時(shí)bert原有的隨機(jī)mask策略可繼續(xù)使用,最終生成的即為適用于我們這一特定任務(wù)場(chǎng)景的預(yù)訓(xùn)練語(yǔ)言模型。我們這一idea的工作已發(fā)表在AAAI2020上,感興趣的同學(xué)可以細(xì)看一下。Simultaneous Learning of Pivots and Representations for Cross-Domain Sentiment Classification

2.?基于Bert&知識(shí)蒸餾的多任務(wù)學(xué)習(xí)

如前文所述,在搜一搜的低俗色情的任務(wù)場(chǎng)景中有query、搜狗網(wǎng)頁(yè)、公眾號(hào)文章、視頻等多個(gè)數(shù)據(jù)領(lǐng)域,多個(gè)領(lǐng)域間均存在不同程度的領(lǐng)域差距,也因此每個(gè)領(lǐng)域都會(huì)訓(xùn)練生成對(duì)應(yīng)的分類(lèi)模型。與此同時(shí),多個(gè)領(lǐng)域之間的任務(wù)目標(biāo)又十分相似,很多知識(shí)是通用的,這十分適合多任務(wù)模型的應(yīng)用。在之前看一看的工作中,我們也嘗試了例如基于LSTM的多任務(wù)模型、領(lǐng)域遷移對(duì)抗模型等,在Bert興起后,如當(dāng)年Imagenet的進(jìn)化路徑,Bert可以作為一個(gè)優(yōu)良的底層特征提取器,繼續(xù)在Bert之上結(jié)合傳統(tǒng)的多任務(wù)學(xué)習(xí)或者遷移學(xué)習(xí)的工作進(jìn)一步提升效果。這里我們嘗試了Google發(fā)表在ACL2019的工作BAM! Born-Again Multi-Task Networks for Natural Language Understanding,其將Bert與多任務(wù)學(xué)習(xí)、知識(shí)蒸餾巧妙地結(jié)合在一起。

知識(shí)蒸餾即將知識(shí)從「教師」模型遷移到「學(xué)生」模型,執(zhí)行方式為訓(xùn)練學(xué)生模型模仿教師模型的預(yù)測(cè)。在「born-again network」(Furlanello et al., 2018) 中,教師和學(xué)生具備同樣的神經(jīng)網(wǎng)絡(luò)架構(gòu)和模型大小,然而學(xué)生網(wǎng)絡(luò)的性能超越了教師網(wǎng)絡(luò)。有研究分析其提升的原因是因?yàn)榻處熌P偷妮敵霾辉偈窃瓉?lái)one-hot label的形式,而轉(zhuǎn)為對(duì)label分布的輸出,這可以提供更多的訓(xùn)練信息(dark knowledge)。

BAM進(jìn)一步將知識(shí)蒸餾擴(kuò)展到多任務(wù)模型訓(xùn)練環(huán)境中,在業(yè)務(wù)應(yīng)用中,首先對(duì)各個(gè)領(lǐng)域的數(shù)據(jù)訓(xùn)練bert的教師模型,進(jìn)而結(jié)合教師模型的預(yù)測(cè)值和實(shí)際label作為多任務(wù)學(xué)習(xí)的label,在BAM中提供了教師模型退火的機(jī)制,即在迭代中逐漸減少教師預(yù)測(cè)值的權(quán)重,達(dá)到青出于藍(lán)而勝于藍(lán)的效果。

04 結(jié)語(yǔ)

近一年我們集中優(yōu)化了搜一搜下多個(gè)場(chǎng)景的低俗色情任務(wù)的效果,在query(包括suggestion、hint及意圖識(shí)別)、網(wǎng)頁(yè)、文章等多個(gè)搜索場(chǎng)景取得了較好的效果,整體F1值在0.8以上。在做業(yè)務(wù)的時(shí)候,我們盡量分析業(yè)務(wù)自身的特點(diǎn),借助各種可用的知識(shí)以及適用業(yè)務(wù)特點(diǎn)的模型來(lái)快速提升效果。在如何完善問(wèn)題發(fā)現(xiàn)機(jī)制、與黑產(chǎn)模式對(duì)抗、使模型更具可遷移性、效果評(píng)估更置信等問(wèn)題上我們還在不斷地嘗試發(fā)掘出一些新的思路,感興趣的同學(xué)歡迎一起探討,感謝大家捧場(chǎng)。

 

作者: fredyttang,微信公眾號(hào):微信AI

來(lái)源:https://mp.weixin.qq.com/s/D_4G_OWtmLN8hrYM8PThHg

本文由 @微信AI 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!
专题
72459人已学习13篇文章
产品经理天天跟“需求”打交道,产品经理的核心价值就是处理“需求”的能力。
专题
12178人已学习12篇文章
电商平台,是兼具媒体和消费场景两大属性的平台,因此衍生出了多种营销模式。本专题的文章分享了电商如何做营销。
专题
15400人已学习12篇文章
本专题的文章分享了互联网金融风控体系的设计指南。
专题
14325人已学习11篇文章
本专题的文章分享了收银台功能设计的流程以及过程中需要注意的问题等等。
专题
13116人已学习12篇文章
OTA,在线旅游(Online Travel Agency)指“旅游消费者通过网络向旅游服务提供商预定旅游产品或服务,并通过网上支付或者线下付费。
专题
39836人已学习26篇文章
近年来“物联网”的势头正足,5G网络宣告展开,未来的浪潮中一定会有“语音交互产品”的一席之地。