內(nèi)容審核平臺(tái)設(shè)計(jì)思路分享

1 評論 4752 瀏覽 62 收藏 11 分鐘

筆者所在的公司,去年重構(gòu)了內(nèi)容審核系統(tǒng)。筆者從0到1參與搭建了該審核系統(tǒng),借此機(jī)會(huì),跟大家分享一下內(nèi)容審核系統(tǒng)的流程及業(yè)務(wù)模式,希望能對你有所幫助。

一、為何要搭建內(nèi)容審核系統(tǒng)

筆者所在的公司,是一家金融行業(yè)公司,受證監(jiān)會(huì)等監(jiān)管機(jī)構(gòu)嚴(yán)格管控。公司每天都會(huì)開直播,以及發(fā)布大量的內(nèi)容到自建app里,為了保證用戶以及公司內(nèi)部人員發(fā)布的內(nèi)容合法合規(guī),阻斷內(nèi)容風(fēng)險(xiǎn),對此,我們急需建立內(nèi)容審核系統(tǒng)。

說完搭建的背景,再來聊一聊,何為內(nèi)容審核?

內(nèi)容審核,說簡單一點(diǎn)就是我們在社交等平臺(tái)上傳,發(fā)布文字,圖片,音視頻,文件等內(nèi)容,平臺(tái)會(huì)對我們發(fā)布的內(nèi)容進(jìn)行審核過濾,從而保證平臺(tái)的平臺(tái)產(chǎn)生的內(nèi)容都是高質(zhì)量且符合規(guī)定的。

例如,我們在抖音平臺(tái)發(fā)布視頻內(nèi)容,抖音平臺(tái)對我們發(fā)布的內(nèi)容進(jìn)行審核。一旦發(fā)現(xiàn)發(fā)布的內(nèi)容違法或違規(guī),平臺(tái)就會(huì)下架我們的內(nèi)容,或?qū)ξ覀兊馁~號(hào)進(jìn)行封禁管理。

講到這,可能有朋友留意到,不用的平臺(tái)審核方式會(huì)有差距。一般審核方式有2種,分別是先審后發(fā)和先發(fā)后審,我們公司由于行業(yè)性質(zhì)的限制,基本都是采用的先審后發(fā)的方式,大家可以根據(jù)行業(yè)要求,自行選擇合適的審核方式。

二、審核方式

先審后發(fā):用戶提交內(nèi)容后,經(jīng)人工/機(jī)器審核通過后,其他人才可見。

先發(fā)后審:用戶提交內(nèi)容后其他人可見,后再進(jìn)行人工/機(jī)器審核,人工/機(jī)器審核結(jié)果會(huì)影響內(nèi)容是否繼續(xù)可見。

我們公司的審核流程一般是這樣的,大家可以參考一下。

對于這個(gè)審核方式,我們?yōu)榱藚^(qū)分不同的應(yīng)用,我們是在后臺(tái)做了配置,支持選擇先審后發(fā)還是先發(fā)后審。

當(dāng)該應(yīng)用配置的審核方式是先發(fā)后審時(shí),我們是默認(rèn)用戶一發(fā)言,即所有人可見,后續(xù)人工可進(jìn)行二次復(fù)審,復(fù)審的結(jié)果會(huì)影響初審結(jié)果。一旦復(fù)審不通過,則內(nèi)容更改為僅本人可見。

如果配置的先審后發(fā),我們會(huì)先判斷該應(yīng)用是否有配置阿里云第三方審核,若沒有配置阿里云審核,則進(jìn)入人工審核階段;若有配置阿里云審核,我們根據(jù)客戶發(fā)言內(nèi)容是否符合阿里云審核模板要求,按照規(guī)則和算法執(zhí)行機(jī)器審核。這里需要注意的是,對于不同的應(yīng)用內(nèi)容,我們還采用了機(jī)器審核是否作為絕對值的選擇。

一般像一些直播間發(fā)言,我們會(huì)開啟阿里云審核作為絕對值,一旦發(fā)言內(nèi)容符合要求,則作為機(jī)審?fù)ㄟ^,機(jī)審?fù)ㄟ^后所有用戶可見該內(nèi)容。若配置的是參考值,則該機(jī)審狀態(tài)僅作為參考值,最終以人工審核結(jié)果為主。

三、機(jī)審&人工審核

上文講完了常見的審核方式,接下來我們詳細(xì)拆解一下機(jī)器審核和人工審核。在講具體的審核類型之前,我們先跟大家介紹一下,一般常見的審核消息類型分別是:文本、圖片、音頻、視頻、文件。針對這幾種類型,我們都接入了機(jī)器審核和人工審核。

1. 機(jī)器審核

1)文本

針對文本消息,一般主要采用關(guān)鍵詞匹配和NLP(自然語言處理)技術(shù)這2種方式。

① 關(guān)鍵詞匹配:關(guān)鍵詞我們一般分為白名單詞、黑名單詞。

  • 白名單,是指用戶提交的內(nèi)容與白名單詞或白名單語句完全匹配時(shí),則默認(rèn)機(jī)審?fù)ㄟ^,支持人工對機(jī)審結(jié)果進(jìn)行復(fù)核。
  • 黑名單詞,也可理解為禁止關(guān)鍵詞,一般是一些明確的宗教禁止用語、淫穢色情等語句,當(dāng)用戶評論內(nèi)容帶有該詞時(shí),會(huì)自動(dòng)將該次高亮標(biāo)記出來,同時(shí)判定為機(jī)審不通過,需人工進(jìn)行審核決定該發(fā)言內(nèi)容是否通過。

② NLP(自然語言處理),即通過語法分析、情感分析、詞向量分析,對發(fā)言內(nèi)容進(jìn)行識(shí)別和歸類,當(dāng)分類結(jié)果與平臺(tái)的素材庫符合時(shí),則返回違規(guī)內(nèi)容。例如,暗示收益、廣告識(shí)別等。

2)圖片審核

圖片審核一般采用OCR技術(shù),將圖片拆解成多個(gè)模塊,提取圖片中存在的問題,例如圖片主體、圖片文字、聯(lián)系方式、廣告信息(二維碼、水印等),在根據(jù)各片段內(nèi)容匯總分類,返回審核結(jié)果。

3)音頻審核

音頻審核,我們公司目前采用的是科大訊飛的語音轉(zhuǎn)寫服務(wù),將音頻內(nèi)容降噪斷句,轉(zhuǎn)寫成文字,再通過對文字的審核返回音頻審核結(jié)果。

4)視頻審核

視頻審核可理解為音頻審核+圖片審核。即對視頻進(jìn)行抽幀,并以幀為單位將視頻中的文字和圖片分別進(jìn)行識(shí)別,以此來判定視頻內(nèi)容是否合規(guī)。

5)文件審核

目前我司的文件審核技術(shù)比較簡單,即對文件里的圖文內(nèi)容進(jìn)行解析提取,以此來識(shí)別是否存在敏感、色情、違禁等風(fēng)險(xiǎn)內(nèi)容。

2. 人工審核

人工審核即專門安排人員在審核后臺(tái)操作審核,審核人員根據(jù)公司的規(guī)章制度以及自己的經(jīng)驗(yàn),判斷該內(nèi)容(文字、圖片、音頻等)是否存在不合規(guī)的情況。人工審核這個(gè)工作量是非常大,一般涉及到審核模塊的,每個(gè)公司都會(huì)專門設(shè)置審核組用于審核工作。為了提高審核人員的效率,一鍵建議做倍速播放,批量審核等功能。

四、審核內(nèi)容的展示

審核內(nèi)容展示與否,一般受咱們上文所說的先審后發(fā)或先發(fā)后審的審核方式影響,咱們這里以先審后發(fā)為例進(jìn)行說明。

  • 未審核:審核人員在進(jìn)行審核操作時(shí),先看到該內(nèi)容的審核狀態(tài),未審核的內(nèi)容需要審核人員進(jìn)行操作,審核人員未通過之前,對其他用戶屏蔽該內(nèi)容,近發(fā)布者本人可見,同時(shí)該作者的主頁相關(guān)的分享等功能,也需同樣屏蔽該內(nèi)容,避免不合理內(nèi)容的傳播。
  • 審核通過:審核通過之后,即對所有用戶放開內(nèi)容,所有用戶可見該內(nèi)容。但初審的審核結(jié)果會(huì)受復(fù)審結(jié)果的影響,一旦審核人員復(fù)核發(fā)現(xiàn)該內(nèi)容存在疑似違規(guī)時(shí),可進(jìn)行復(fù)核拒絕。被復(fù)核拒絕的內(nèi)容,則進(jìn)行屏蔽,近限發(fā)布者本人可見。
  • 審核拒絕:審核拒絕,則僅本人可見該內(nèi)容。同時(shí),在用戶端,我們需明顯提示被審核拒絕的原因,且給到用戶申訴或重新發(fā)起審核的操作。
  • 拉黑用戶:拉黑是針對用戶而言的,當(dāng)審核人員發(fā)現(xiàn)該用戶經(jīng)常在社區(qū)或內(nèi)容平臺(tái)發(fā)布各種違法不實(shí),涉情涉政等內(nèi)容時(shí),可拉黑用戶,用戶被拉黑后,則不可在平臺(tái)發(fā)表內(nèi)容。同樣,我們需提醒用戶,是因何原因被平臺(tái)拉黑禁用的,給到用戶申訴的空間。

五、總結(jié)

以上內(nèi)容,是筆者根據(jù)本人經(jīng)驗(yàn)總結(jié)的審核平臺(tái)的審核方式,審核流程。合規(guī)審核對公司是一個(gè)非常重要的環(huán)節(jié),能有效方式避免違規(guī)內(nèi)容的傳播,作為審核平臺(tái),我們需要不斷完善審核的機(jī)制,提供審核人員效率。

本文由 @一個(gè)摸魚的職場人 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評論
評論請登錄
  1. 抄襲的易盾的官網(wǎng)

    來自日本 回復(fù)