常見(jiàn)的內(nèi)容治理問(wèn)題有哪些?來(lái)看看這篇經(jīng)驗(yàn)分享

1 評(píng)論 5502 瀏覽 62 收藏 39 分鐘

在治理內(nèi)容社區(qū)、維護(hù)內(nèi)容安全的平臺(tái)運(yùn)營(yíng)過(guò)程中,運(yùn)營(yíng)人員往往需要保證內(nèi)容質(zhì)量,避免違規(guī)內(nèi)容的出現(xiàn),以保障用戶的使用或閱讀體驗(yàn)。那么,常見(jiàn)的內(nèi)容安全問(wèn)題和質(zhì)量問(wèn)題有哪些?我們又應(yīng)該如何做好治理動(dòng)作?一起來(lái)看看作者的經(jīng)驗(yàn)分享。

寫(xiě)這篇文章最害怕的就是涉及公司機(jī)密信息,反復(fù)檢查了好幾遍所舉案例。

寫(xiě)這篇文章的目的,首先,這并不會(huì)涉及到公司機(jī)密。其次,我們治理過(guò)的這些問(wèn)題大部分屬于內(nèi)容行業(yè)共存的問(wèn)題,但對(duì)于不同公司的風(fēng)控人人員不一定能夠關(guān)注全面。

所以打算脫敏寫(xiě)出來(lái),風(fēng)控人員可以查漏補(bǔ)缺,希望能夠?qū)?nèi)容行業(yè)產(chǎn)生一點(diǎn)幫助,共同使行業(yè)更好。

在工作中,我負(fù)責(zé)公司社區(qū)生態(tài)治理,主要包括干掉壞內(nèi)容、干掉壞用戶、提升內(nèi)容質(zhì)量、提升用戶體驗(yàn)。這篇主要說(shuō)干掉了哪些壞內(nèi)容、干掉了哪些壞用戶。

本文從以下幾個(gè)方面展開(kāi)來(lái)說(shuō):

  1. 治理內(nèi)容安全問(wèn)題;
  2. 治理內(nèi)容質(zhì)量問(wèn)題;
  3. 從用戶角度做治理;
  4. 處罰方式;
  5. 治理經(jīng)驗(yàn)。

一、治理內(nèi)容安全問(wèn)題

干掉壞內(nèi)容包括兩部分,一部分是業(yè)務(wù)型內(nèi)容,即業(yè)務(wù)不需要的這部分內(nèi)容,一部分是安全型內(nèi)容,即監(jiān)管部門(mén)讓刪除的內(nèi)容。

治理過(guò)的安全內(nèi)容很多,例如涉黃、危害青少年、引導(dǎo)錯(cuò)誤的價(jià)值觀、負(fù)面輿情等,這些是監(jiān)管部門(mén)明確要求不能存在的(這幾個(gè)好舉例,其他治理過(guò)的涉及安全的內(nèi)容不一定適合舉例)。

二、治理內(nèi)容質(zhì)量問(wèn)題

對(duì)于質(zhì)量型內(nèi)容,監(jiān)管部門(mén)不會(huì)來(lái)要求刪除,但平臺(tái)不希望這類(lèi)型內(nèi)容存在,例如有用戶 5 月份在多條帖子下大量評(píng)論“新年快樂(lè)”,這個(gè)對(duì)業(yè)務(wù)來(lái)說(shuō),屬于低質(zhì)評(píng)論,需要治理的對(duì)象,下面將展開(kāi)說(shuō)我們主要治理過(guò)的問(wèn)題。

1. 重復(fù) / 改寫(xiě) / 抄襲

由于生產(chǎn)有獎(jiǎng)勵(lì),用戶生產(chǎn)有成本,所以部分用戶有動(dòng)機(jī)將已經(jīng)生產(chǎn)的優(yōu)質(zhì)內(nèi)容復(fù)制,然后重新發(fā)布以便快速獲得獎(jiǎng)勵(lì)。

為避免內(nèi)容同質(zhì)化,及平臺(tái)花錢(qián)買(mǎi)到低質(zhì)內(nèi)容,所以會(huì)治理這類(lèi)型內(nèi)容。

從內(nèi)容形式上劃分可劃分為重復(fù)圖片、重復(fù)文本(也有重復(fù)視頻,但治理方式識(shí)別方式類(lèi)似重復(fù)圖片,所以未單獨(dú)劃分)。

1)重復(fù)圖片

需要治理重復(fù)圖片是因?yàn)橛脩粝M(fèi)一段圖文內(nèi)容時(shí),會(huì)優(yōu)先看到圖片,若圖片相同,用戶會(huì)默認(rèn)為文本也相同,進(jìn)而認(rèn)為內(nèi)容同質(zhì)化。

若相同圖片出現(xiàn)次數(shù)較少,則可通過(guò)算法打散分發(fā),不讓同一個(gè)用戶在短時(shí)間內(nèi)看到相同圖片內(nèi)容即可。但若相同圖片出現(xiàn)次數(shù)較大,則較難由分發(fā)打散,且部分分發(fā)場(chǎng)景是 timeline,算法不參與分發(fā)。

使用的識(shí)別形式包括兩種,一種是計(jì)算圖片 md5,使用絕對(duì)相等,一種是相似圖模型識(shí)別。識(shí)別之后再結(jié)合一些策略,當(dāng)相似度達(dá)到一定值,且相似或重復(fù)次數(shù)達(dá)到一定量,且由≥一定 uid 數(shù)量發(fā)布時(shí),則會(huì)對(duì)之后進(jìn)行發(fā)布的內(nèi)容進(jìn)行一些處理。

在這條通用策略之下,還會(huì)配置一些特殊策略,例如針對(duì)某些場(chǎng)景 / uid / md5 執(zhí)行不同策略等。

2)重復(fù)文本

針對(duì)重復(fù)文本是和用戶不斷對(duì)抗的過(guò)程。

① 用戶發(fā)布重復(fù)內(nèi)容,平臺(tái)開(kāi)發(fā)重復(fù)模型,且將重復(fù)度≥一定值的內(nèi)容判定為重復(fù)內(nèi)容。注:治理重復(fù)內(nèi)容本質(zhì)是希望當(dāng)前線上不給用戶展示重復(fù)內(nèi)容,所以對(duì)比內(nèi)容庫(kù)僅為線上內(nèi)容。

② 用戶對(duì)抗,用戶將之前發(fā)布的內(nèi)容刪除后重新發(fā)布,平臺(tái)將對(duì)比內(nèi)容庫(kù)增加已刪除內(nèi)容。

③ 用戶對(duì)抗,用戶通過(guò)刪除一頭一尾、替換部分文本、替換數(shù)字、更換不影響語(yǔ)義的標(biāo)點(diǎn)符號(hào) / 無(wú)意義字符、刪掉部分內(nèi)容、替換同義詞、固定模板等方式,生產(chǎn)人工能快速判斷為重復(fù),但重復(fù)模型無(wú)法識(shí)別的內(nèi)容。平臺(tái)迭代重復(fù)模型,通過(guò)梳理用戶改寫(xiě)的類(lèi)型,迭代模型,使模型能夠識(shí)別出這些類(lèi)型的重復(fù)內(nèi)容。

④ 用戶對(duì)抗,用戶通過(guò)隨意摘抄一段菜譜、名人語(yǔ)錄、歌詞、電影臺(tái)詞等,平臺(tái)通過(guò)制定審核規(guī)則,由人工判斷。

⑤ 用戶通過(guò)其他無(wú)法預(yù)知的方式生產(chǎn)重復(fù)內(nèi)容,平臺(tái)通過(guò)產(chǎn)品功能優(yōu)化來(lái)解決。例如:

  • 要生產(chǎn)重復(fù)內(nèi)容,則會(huì)從一個(gè)地方復(fù)制然后在另一個(gè)地方粘貼,則可在粘貼提示、粘貼限制等產(chǎn)品功能上優(yōu)化;
  • 生產(chǎn)重復(fù)內(nèi)容的用戶有個(gè)共性,發(fā)帖量較大,則可對(duì)單位時(shí)間發(fā)帖上限做限制;
  • 有粘貼行為的用戶較大概率為重復(fù)內(nèi)容生產(chǎn)者,則可通過(guò)粘貼行為拎出用戶做離線數(shù)據(jù)分析,從用戶維度進(jìn)行處理;
  • 也可對(duì)新進(jìn)行用戶教育、新手引導(dǎo)、優(yōu)質(zhì)內(nèi)容引導(dǎo)等。

注:以上僅為極簡(jiǎn)的策略,在實(shí)際應(yīng)用場(chǎng)景上還有很多細(xì)節(jié)限制,例如重復(fù)文本的判斷僅針對(duì)字?jǐn)?shù)≥一定值的內(nèi)容才執(zhí)行;例如評(píng)論場(chǎng)景和帖子場(chǎng)景會(huì)差異化的配置;例如重復(fù)模型迭代需要不斷發(fā)現(xiàn)并梳理重復(fù)違規(guī)類(lèi)型。

2. 虛假信息

對(duì)于任何平臺(tái)都會(huì)存在虛假信息,這些虛假信息來(lái)自用戶主動(dòng)或不自知的生產(chǎn)。虛假信息雖然占比較低,但對(duì)用戶的影響很大??赡苁怯绊懹脩襞袛?、可能是了解到錯(cuò)誤信息、可能是進(jìn)入到一個(gè)錯(cuò)誤行業(yè)、可能是被騙錢(qián)財(cái)?shù)龋瑤缀趺恳粋€(gè)都會(huì)對(duì)用戶造成較大負(fù)面影響。

不管平臺(tái)是希望用戶能夠更相信平臺(tái),還是從平臺(tái)承擔(dān)著一定社會(huì)責(zé)任角度來(lái)說(shuō),都需要治理虛假信息。

要治理虛假信息,第一個(gè)問(wèn)題一定會(huì)問(wèn):什么是虛假信息?

并不能說(shuō)讓模型判斷,模型覺(jué)得是虛假的就是虛假。也不能讓審核人員自己判斷,他覺(jué)得是虛假就是虛假,那可能會(huì)出現(xiàn)審核人員 A 覺(jué)得是虛假信息,但審核人員 B 覺(jué)得不是虛假信息。

但也沒(méi)辦法給虛假信息一個(gè)統(tǒng)一的定義,如果能給出,那一定是去掉了很多細(xì)節(jié),是不具有可執(zhí)行性的一個(gè)定義。

所以只能看大量 case、以及看用戶反饋、用戶舉報(bào)信息、審核反饋等,收集大量可能是虛假的信息。再自己判斷其中屬于虛假的信息,再劃分不同場(chǎng)景,根據(jù)每一個(gè)場(chǎng)景制定不同的標(biāo)準(zhǔn),定義清楚什么叫做虛假信息。

舉例我們制定過(guò)的幾個(gè)細(xì)分場(chǎng)景下的虛假信息的定義。

① 外賣(mài)員、快遞員等,曬收入截圖,月收入超過(guò)一定值,或日收入超過(guò)一定值,則定義為虛假信息。從行業(yè)數(shù)據(jù)來(lái)看,能達(dá)到這個(gè)數(shù)值的用戶不到 0.5%, 相對(duì)虛假信息帶來(lái)的危害,平臺(tái)寧愿接受這部分誤傷的存在。

② 男性,發(fā)布女性照片, 并且表達(dá)意思為想相親,如果有大哥覺(jué)得合適可聯(lián)系我,則定義為虛假信息??山Y(jié)合用戶認(rèn)證信息、機(jī)器識(shí)別照片及文本語(yǔ)義來(lái)判斷。

③ 用戶在一定周期內(nèi)過(guò)渡頻繁的在內(nèi)容中更換職業(yè),例如昨天的發(fā)帖說(shuō)自己是理發(fā)師,今天說(shuō)自己是電焊工,明天說(shuō)自己是廚師,則判斷為虛假信息。因?yàn)檎S脩舨粫?huì)在這么短的周期內(nèi)這么頻繁的更換職業(yè),在我們內(nèi)部稱(chēng)這類(lèi)型用戶為“百變小櫻”。

此類(lèi)用戶目的大多為吸引用戶聯(lián)系自己,以便進(jìn)行下一步詐騙。我們也會(huì)制定相應(yīng)的策略來(lái)識(shí)別,在一定周期內(nèi)用戶發(fā)帖的身份大于等于一定值,則會(huì)送人審,結(jié)合這個(gè)用戶的其他信息來(lái)判斷是否屬于百變小櫻(因?yàn)檫@個(gè)策略存在相對(duì)較高的誤傷,所以不能機(jī)器識(shí)別后直接處理)。

通過(guò)對(duì)虛假信息定義的經(jīng)驗(yàn),可形成以下四個(gè)步驟來(lái)定義治理問(wèn)題的標(biāo)準(zhǔn)化流程。

  • 步驟一:通過(guò)各種渠道瀏覽大量樣本,渠道包括自己瀏覽、用戶反饋、用戶舉報(bào)、審核反饋等。
  • 步驟二:針對(duì)樣本做特征分析。
  • 步驟三:總結(jié)歸納。
  • 步驟四:細(xì)分場(chǎng)景制定標(biāo)準(zhǔn)。

3. 話題不相關(guān)

話題不相關(guān)是指,內(nèi)容行業(yè)為了控制生產(chǎn)方向,往往會(huì)產(chǎn)生話題,讓用戶基于話題進(jìn)行生產(chǎn)相關(guān)內(nèi)容。

但用戶在生產(chǎn)內(nèi)容時(shí),可能由于生產(chǎn)成本過(guò)高,或無(wú)能力生產(chǎn)相關(guān)話題的內(nèi)容,或其他原因,會(huì)主動(dòng)去生產(chǎn)和話題不相關(guān)的內(nèi)容。

對(duì)于用戶消費(fèi)聚合內(nèi)容來(lái)說(shuō),這就屬于垃圾內(nèi)容,例如在一個(gè)聊 AIGC 的話題下包含一篇聊母豬的產(chǎn)后護(hù)理的優(yōu)質(zhì)文章,對(duì)于用戶來(lái)說(shuō)是不需要的,在這個(gè)場(chǎng)景下屬于垃圾內(nèi)容。

對(duì)于識(shí)別和話題不相關(guān)的內(nèi)容,開(kāi)發(fā)了話題相關(guān)度模型,根據(jù)相關(guān)度高低來(lái)決定給創(chuàng)作者多少獎(jiǎng)勵(lì),及決定內(nèi)容應(yīng)用場(chǎng)景。

模型主要識(shí)別兩個(gè)方面。

一類(lèi)是與話題不相關(guān),例如將話題復(fù)制一遍、內(nèi)容和話題完全不相關(guān)、答非所問(wèn)、內(nèi)容完全無(wú)意義、同一領(lǐng)域但完全沒(méi)回答問(wèn)題等。舉例:

  • 話題:快遞派送前如何錄入系統(tǒng)?
  • 內(nèi)容:快遞派送前如何錄入系統(tǒng)?他們都在一各家一各減的少嗎?少馬國(guó)系統(tǒng)所以說(shuō)相對(duì)來(lái)說(shuō)還是比較麻煩的,只不過(guò)是少馬路系統(tǒng),這樣的話基本上不會(huì)有酒駕的問(wèn)題,我覺(jué)得還算是很不錯(cuò)的吧

另一類(lèi)雖然與話題相關(guān),但脫離話題的限定條件,例如話題限定了行業(yè)、需包含收入水平、限定了場(chǎng)景,但內(nèi)容并不包含相關(guān)信息。舉例:

  • 話題:因?yàn)樽龊腹すぷ?,你得了什么職業(yè)病?
  • 內(nèi)容:沒(méi)從事過(guò)焊工,不過(guò)倒是有職業(yè)病,比如筋膜炎等。

4. 水帖

來(lái)自百科的定義,水帖:水帖是貼吧、論壇或bbs中一種對(duì)于主題不重要的、無(wú)意義的帖子的統(tǒng)稱(chēng)。

對(duì)于社區(qū)來(lái)說(shuō), 內(nèi)容中充斥著水帖,會(huì)降低整個(gè)社區(qū)內(nèi)容質(zhì)量,成熟社區(qū)都會(huì)治理水帖。

在具體治理過(guò)程中就需要生態(tài)治理產(chǎn)品去發(fā)現(xiàn)水帖并總結(jié)歸納類(lèi)型、思考是否需要治理、治理到什么程度、以什么工具治理、給予什么處罰等。

下面舉例一些制定過(guò)的策略、規(guī)則,以及使用過(guò)的識(shí)別模型。

① 純文本,且字?jǐn)?shù)小于等于一定值

通過(guò)分析歷史數(shù)據(jù)發(fā)現(xiàn),當(dāng)用戶發(fā)帖小于等于一定值,且不帶圖片時(shí),對(duì)于我們平臺(tái),這條內(nèi)容基本不具有消費(fèi)價(jià)值,就會(huì)以一種用戶無(wú)感知的不分發(fā)的形式處理。

舉例:啦啦啦、夕陽(yáng)無(wú)限好、美好的一天、湖州你好

② 僅包含標(biāo)點(diǎn)符號(hào)、數(shù)字、emoji 等

我們打擊過(guò)的黑灰產(chǎn)、治理過(guò)的內(nèi)容實(shí)例合集

③ 部分 uid 在部分場(chǎng)景發(fā)帖 / 評(píng)論

用戶每次違規(guī)都會(huì)有記錄,也會(huì)扣相應(yīng)的分?jǐn)?shù),當(dāng)某些類(lèi)型的違規(guī)在一定周期內(nèi)達(dá)到一定次數(shù),或一定周期內(nèi)的扣分?jǐn)?shù)達(dá)到一定值,則會(huì)對(duì)用戶進(jìn)行處罰,即階梯處罰。

舉例,用戶在 7 天內(nèi)發(fā)布水帖次數(shù)≥10 次,則會(huì)將用戶在激勵(lì)場(chǎng)景的發(fā)帖或評(píng)論全部不給予獎(jiǎng)勵(lì)(注,這并非系統(tǒng)完整邏輯,也并非真實(shí)數(shù)字)。

我們打擊過(guò)的黑灰產(chǎn)、治理過(guò)的內(nèi)容實(shí)例合集

④ 命中水帖治理詞庫(kù)

我們打擊過(guò)的黑灰產(chǎn)、治理過(guò)的內(nèi)容實(shí)例合集

⑤ 多賬號(hào)多設(shè)備

若用戶同一個(gè)設(shè)備上一定周期內(nèi)登錄過(guò)多個(gè) uid,或一個(gè) uid 在多個(gè)設(shè)備上登錄過(guò),分析這些用戶的歷史數(shù)據(jù),發(fā)現(xiàn)較大量的存在無(wú)法識(shí)別的水帖(因?yàn)槠脚_(tái)策略是有限的,用戶違規(guī)方法是無(wú)限的,當(dāng)用戶了解平臺(tái)策略之后,會(huì)用各種辦法逃過(guò)策略)。

所以會(huì)制定一條策略,當(dāng)用戶觸發(fā)「多賬號(hào)多設(shè)備」時(shí),則會(huì)將他內(nèi)容送入更嚴(yán)的模型,例如普通用戶對(duì)于低質(zhì)模型,達(dá)到 0.9 才處罰,對(duì)于「多賬號(hào)多設(shè)備」用戶的內(nèi)容,則達(dá)到 0.8 就會(huì)處罰。

⑥ 文本中包含某些關(guān)鍵詞,且文本字?jǐn)?shù)≤一定值

在評(píng)論場(chǎng)景,當(dāng)把所有水帖內(nèi)容拉出來(lái)看時(shí)會(huì)發(fā)現(xiàn),水帖內(nèi)容也會(huì)有一些共性,例如字?jǐn)?shù)相對(duì)較短,雖然長(zhǎng)尾很分散,但也會(huì)有一些頭部的高頻詞匯,例如紅紅火火恍恍惚惚、哈哈哈、支持一下、謝謝分享、開(kāi)心每一天、打個(gè)卡、你好、謝謝、加油等內(nèi)容。

對(duì)于一些短文本,這些詞為主要內(nèi)容,則可理解為水帖。如果是一段 100 字評(píng)論,里面包含這些詞,則不能認(rèn)為這是水帖內(nèi)容。如果不限制字?jǐn)?shù)或比例,則會(huì)很容易出現(xiàn)誤傷。

我們打擊過(guò)的黑灰產(chǎn)、治理過(guò)的內(nèi)容實(shí)例合集

但這對(duì)不同平臺(tái)的處理嚴(yán)格程度不同,我們平臺(tái)會(huì)選擇治理,其他平臺(tái)可能會(huì)選擇不治理。治理是因?yàn)閷幵赣脩羯倏吹皆u(píng)論,也不愿讓用戶看到低質(zhì)評(píng)論,以及避免帶來(lái)連鎖反應(yīng),其他用戶跟著學(xué)。

⑦ 非新年期間評(píng)論包含「新年快樂(lè)」

這是在我剛開(kāi)始做風(fēng)控時(shí)做過(guò)的一條非常失敗的策略。

背景信息,分析歷史數(shù)據(jù)發(fā)現(xiàn),五月份有部分用戶在評(píng)論區(qū)大量發(fā)布「新年快樂(lè)」相關(guān)評(píng)論,雖在設(shè)備、IP、賬號(hào)、注冊(cè)信息、登錄信息等均無(wú)關(guān)聯(lián)性,但從發(fā)布的內(nèi)容及發(fā)布內(nèi)容時(shí)間來(lái)看,基本可確認(rèn)是屬于同一個(gè)人或團(tuán)伙在操作。

且發(fā)類(lèi)似文本的賬號(hào)在不斷新增,所以沒(méi)從賬號(hào)或設(shè)備維度進(jìn)行治理,而是僅從內(nèi)容維度出了策略,策略邏輯:在非新年期間評(píng)論新年快樂(lè)及其變形的文本做自見(jiàn)處理(僅自己可見(jiàn))。

這條策略失敗的點(diǎn)在于,只能解決了當(dāng)前存在的這個(gè)特定問(wèn)題,未考慮這類(lèi)問(wèn)題在將來(lái)如何有一個(gè)通用的解決方案。例如用戶將「新年快樂(lè)」變?yōu)椤钢星锟鞓?lè)」或「背包好看」就失效了,且用戶的變形成本極低。

例如可以計(jì)算單個(gè)用戶周期內(nèi)詞頻,一定頻率可直接處理,一定頻率可送人審。也可以計(jì)算全局周期內(nèi)詞頻,對(duì)于環(huán)比變化過(guò)大的詞可給人工預(yù)警提示等。

⑧ 低質(zhì)模型

低質(zhì)模型識(shí)別包含語(yǔ)句通順度、虛詞、感嘆詞、亂打字、文本無(wú)實(shí)際意義等邏輯,以及一些既定策略會(huì)融合進(jìn)模型。

我們打擊過(guò)的黑灰產(chǎn)、治理過(guò)的內(nèi)容實(shí)例合集

雖然很多策略可融合進(jìn)模型,但由于策略的可解釋性強(qiáng),易調(diào)整等優(yōu)點(diǎn),還是會(huì)讓一些策略單獨(dú)存在,不融合進(jìn)模型。

以上一些案例幾乎都是從內(nèi)容維度來(lái)識(shí)別,進(jìn)而從內(nèi)容維度進(jìn)行治理,但在工作中還有較大一部分是從內(nèi)容維度識(shí)別,然后從用戶維度進(jìn)行治理,以及從用戶維度識(shí)別,從用戶維度治理,從用戶維度進(jìn)行治理將在下一章展開(kāi)說(shuō)。

以上所舉例都是發(fā)現(xiàn)了某些問(wèn)題,然后進(jìn)行治理,但如何去發(fā)現(xiàn)這些問(wèn)題的,在這篇文章中有詳細(xì)說(shuō):《風(fēng)控:上線一條規(guī)則/策略的完整流程》。

5. 聯(lián)系方式

所說(shuō)聯(lián)系方式包括圖片 / 視頻 / 音頻 / 文本中包含手機(jī)號(hào)、微信號(hào)、qq、網(wǎng)址、二維碼等聯(lián)系方式,以及以上內(nèi)容的變形。例如空格隔開(kāi)、中英文、拼音、手寫(xiě)、中文音異、電話通話截圖、半打馬賽克、形異、文本頭像結(jié)合、拍攝名片 / 拍攝二維碼 / 海報(bào) / 宣傳單 / 紙條 / 手寫(xiě)聯(lián)系方式、手寫(xiě)并簡(jiǎn)單計(jì)算,以及誘導(dǎo)聯(lián)系方式等。

我們不允許發(fā)布聯(lián)系方式,因?yàn)樯鐓^(qū)場(chǎng)景不需要聯(lián)系方式。并且經(jīng)分析歷史數(shù)據(jù)發(fā)現(xiàn),當(dāng)出現(xiàn)聯(lián)系方式時(shí),比較大概率會(huì)同時(shí)出現(xiàn)詐騙、刷鉆引流、廣告、逃單、隱私安全、線下風(fēng)險(xiǎn)、騷擾、賬號(hào)交易等,帶來(lái)危害比較嚴(yán)重,且容易漏識(shí)別,所以可從杜絕聯(lián)系方式角度降低詐騙、刷鉆引流、廣告等問(wèn)題。

針對(duì)這些問(wèn)題也會(huì)建設(shè)對(duì)應(yīng)策略來(lái)識(shí)別。舉例部分策略:

  • 文本中數(shù)字或字母連續(xù)≥一定值,則認(rèn)為這是連續(xù)方式;
  • 檢測(cè)電話、QQ號(hào)、微信號(hào)、網(wǎng)址、二維碼;
  • 檢測(cè)數(shù)字+分段聯(lián)系方式;
  • 檢測(cè)變形聯(lián)系方式;
  • 檢測(cè)多昵稱(chēng)拼接聯(lián)系方式;
  • 檢測(cè)多條回復(fù)拼接聯(lián)系方式;
  • 檢測(cè)含數(shù)字變形的聯(lián)系方式;
  • 檢測(cè)內(nèi)容包含惡意引流文本且檢測(cè)包含聯(lián)系方式;
  • 以及制定人工審核規(guī)則等;
  • ……

一些案例:

  • 點(diǎn)擊[http:/xxxxxxxx]查看表情
  • 看到你的留言了,佳沃k16rvvf7
  • 為我,A嗯6嗯0嗯5嗯9嗯3嗯9嗯8嗯
  • 妖霧氣 嗚嗚妖吧 妖霧三氣
  • 加v ?yan 七二四三九xx五
  • 想了解咨詢(xún)我吧:壹肆柒xx伍零柒柒柒捌!?。?!
  • l六七4420五xx久
  • 請(qǐng)連起來(lái)152號(hào)823室791廳66聊
  • 1??7??6??9??3??1??9??8??8??3??
  • ??一三八0??一四七0??二八三
  • 欒城房源出租,三室精裝拎包入住。看房電話180-3xx1-3401蘇星
  • 招美團(tuán)騎手,微信電話同步188..4381…2xx6
  • 中山市 上門(mén)回收 空調(diào) 冰箱 洗衣機(jī) 紙皮等 上門(mén)回收范圍 中山市 小欖 東鳳 東升 古鎮(zhèn) 橫欄 需要回收舊電器和廢品 的朋友們可以私聊本人寶師傅 ①③⑥②O③⑧②②⑨
  • 各種廣告牌,安裝,設(shè)計(jì),制造,電話199。0161。xx27
  • 本人有一輛電動(dòng)車(chē)三輪車(chē)轉(zhuǎn)讓?zhuān)行枰龈鞣N小吃可以聯(lián)系我178?44xx?0758謝謝
  • 讓每個(gè)家庭擁有一個(gè)懂健康的人,管理家人健康,遠(yuǎn)離各種疾病。一起學(xué)習(xí)交流健康知識(shí)。18三,1 五七,6 4四二
  • 昌黎上風(fēng)上水六加一電梯洋房二樓106平帶大下房,電話一,八。 三 !三五,(七;八。九/(五@ 9同微信,有意者聯(lián)系我
  • 喬家溝租個(gè)房子 最好是獨(dú)院 讓養(yǎng)貓 養(yǎng)狗 有的?176…~3616……xx19
  • 花都北門(mén)輕紡城自己的房子出租,一室一廳一廚一衛(wèi),需要的聯(lián)系,微信同號(hào)1八七六九零零三xx三

6. 廣告

絕大多數(shù)平臺(tái)都不允許,或者至少是不希望平臺(tái)內(nèi)充滿用戶發(fā)布的廣告,只是不同平臺(tái)的處理方式不一樣。朋友圈可能是折疊,小紅書(shū)可能是不給流量,其他平臺(tái)可能是無(wú)法審核通過(guò)。這些廣告由于大量重復(fù)、低質(zhì)、以及無(wú)法驗(yàn)證真假、影響公司其他業(yè)務(wù)、污染信息流等問(wèn)題,平臺(tái)通常會(huì)選擇治理廣告。

對(duì)廣告的治理和虛假信息的治理類(lèi)似,沒(méi)辦法對(duì)「廣告」有一個(gè)統(tǒng)一的定義,所以得梳理 case,在各個(gè)細(xì)分場(chǎng)景制定規(guī)則。

  • 舉例一些制定過(guò)的策略;
  • 對(duì)廣告文本的檢測(cè);
  • 對(duì)出租求租信息檢測(cè)、對(duì)招聘求職信息檢測(cè);
  • 對(duì)屏蔽詞庫(kù)檢測(cè)、對(duì)刷鉆吸粉詞庫(kù)檢測(cè)、廣告法詞庫(kù)檢測(cè);
  • “連、起、來(lái)”開(kāi)頭結(jié)尾黑產(chǎn)檢測(cè);
  • 過(guò)引流模型;
  • 營(yíng)銷(xiāo)反作弊數(shù)據(jù)檢測(cè);
  • 以及制定相關(guān)的人審規(guī)則;
  • ……

上面舉例的是一些識(shí)別廣告的策略,但從廣告特性上來(lái)說(shuō),用戶發(fā)布廣告絕大部分是希望能夠與自己聯(lián)系,所以具體在治理時(shí)大部分是從聯(lián)系方式、私聊角度來(lái)治理,會(huì)更高效?;蛘吒鶕?jù)多條策略的結(jié)果結(jié)合來(lái)決定處罰方式。

以下兩個(gè)案例為引流模型識(shí)別出來(lái)的內(nèi)容。

  1. 帶一些新人,看個(gè)人銀行額度賺錢(qián),一天一萬(wàn)+ 感興趣私聊詳談。
  2. 押車(chē)借款利息低,額度高。

注:還有很多類(lèi)型內(nèi)容也屬于廣告,但會(huì)被劃分到更細(xì)的分類(lèi)里面,例如「副業(yè)」類(lèi)、「醫(yī)美」類(lèi)。

7. 不文明用語(yǔ)

對(duì)于不文明用語(yǔ),在不同平臺(tái)的接受程度不同,我們平臺(tái)會(huì)治理辱罵及不文明用語(yǔ),希望給生產(chǎn)者及消費(fèi)者帶來(lái)一個(gè)更文明和諧的生態(tài)環(huán)境。

治理方式主要是辱罵詞檢測(cè)、辱罵模型檢測(cè),以及人工審核。對(duì)于詞庫(kù)網(wǎng)上可找到公開(kāi)詞庫(kù),以及平臺(tái)自己不斷完善。對(duì)于辱罵模型,屬于中臺(tái)工具,業(yè)務(wù)只是應(yīng)用,模型具體邏輯未有機(jī)會(huì)詳細(xì)了解。對(duì)于人工審核規(guī)則,則會(huì)結(jié)合上下文本判斷。

8. 其他類(lèi)

有很多細(xì)分分類(lèi)被治理過(guò),除了前面展開(kāi)說(shuō)的七種,還包括這些。

  • 街拍視頻、網(wǎng)紅無(wú)意義擺拍等無(wú)消費(fèi)價(jià)值的視頻,對(duì)其他平臺(tái)可能屬于優(yōu)質(zhì)內(nèi)容,但對(duì)我們業(yè)務(wù)定位來(lái)說(shuō),則不需要這類(lèi)型內(nèi)容;
  • 低俗類(lèi)、軟色情類(lèi);
  • 重復(fù)領(lǐng)養(yǎng)、贈(zèng)送、配對(duì);
  • 視頻帶水印,因?yàn)橄M脩舭l(fā)布原創(chuàng)視頻,而不是從抖快等平臺(tái)盜視頻來(lái)發(fā)布;
  • 個(gè)人隱私,例如涉及完整的各類(lèi)證件號(hào)、爆料某人,并且涉及家庭住址電話號(hào)碼等隱私信息;
  • 詐騙類(lèi),這其實(shí)也是一個(gè)大類(lèi),下面還可以劃分很多細(xì)分場(chǎng)景進(jìn)行治理,例如信用卡類(lèi)詐騙、創(chuàng)業(yè)合伙類(lèi)詐騙、相親類(lèi)詐騙、理財(cái)類(lèi)詐騙、東南亞招聘類(lèi)詐騙、菠菜類(lèi)詐騙;
  • ……

9. 治理中一些常用工具(模型能力)

重復(fù)模型、相似圖模型、低質(zhì)模型、網(wǎng)賺模型、涉黃模型、低俗模型、引流模型、辱罵模型、涉政算法等。

識(shí)別香煙、變形聯(lián)系方式、政治人物、明星、美女圖、emoji、血腥、暴恐、蠟燭、刀具、識(shí)別人體各個(gè)部位,包括腿 / 胸 / 肩 / 背 / 臀等。

業(yè)務(wù)進(jìn)行治理時(shí),大多數(shù)能力會(huì)應(yīng)用中臺(tái)能力,部分時(shí)候由于中臺(tái)無(wú)法提供個(gè)性化能力或時(shí)間緊張等原因,業(yè)務(wù)會(huì)自己開(kāi)發(fā)模型。

三、從用戶角度做治理

我的工作是內(nèi)容治理,但很多情況下內(nèi)容不易識(shí)別,會(huì)考慮從用戶角度來(lái)做內(nèi)容治理,從作弊動(dòng)機(jī)出發(fā)。

對(duì)于我們業(yè)務(wù),用戶作弊動(dòng)機(jī)主要分為兩類(lèi),一類(lèi)是發(fā)廣告,一類(lèi)是通過(guò)做任務(wù)進(jìn)而獲得收益。

對(duì)于發(fā)廣告動(dòng)機(jī)的用戶,從內(nèi)容角度特性明顯,例如高頻發(fā)布重復(fù)內(nèi)容、都帶聯(lián)系方式、主要從非賺錢(qián)入口發(fā)布等,比較好治理,涉及到用戶相關(guān)只有用戶在短期內(nèi)多次發(fā)布廣告,然后拉黑用戶。

對(duì)于通過(guò)做任務(wù)獲得收益,用戶會(huì)有一個(gè)完整的作弊流程,如下圖:

我們打擊過(guò)的黑灰產(chǎn)、治理過(guò)的內(nèi)容實(shí)例合集

  • 正常用戶的流程:注冊(cè) → 登錄 → 發(fā)帖/評(píng)論 → 獲得收益 → 提現(xiàn)。
  • 作弊用戶的流程:注冊(cè) → 登錄 → 發(fā)帖/評(píng)論 → 多設(shè)備多賬號(hào)/相互評(píng)論/互刷流量/發(fā)重復(fù)圖等 → 低質(zhì)內(nèi)容 → 獲得收益 → 轉(zhuǎn)移金額 → 提現(xiàn)。

作弊用戶的流程中每一個(gè)環(huán)節(jié)均有多種可作弊空間,例如:

① 注冊(cè) / 登錄,可能會(huì)涉及

惡意注冊(cè)、批量注冊(cè)、設(shè)備指紋黑名單、黑卡賬號(hào)、機(jī)器登錄、貓池、root、hook、篡改設(shè)備、安裝黑產(chǎn)工具 & 模擬點(diǎn)擊 App、篡改 ua、安裝改機(jī)app、安裝云控 App、短時(shí)關(guān)聯(lián)用戶過(guò)多、參數(shù)格式錯(cuò)誤、參數(shù)間不匹配、設(shè)備硬件信息不匹配等。

注:這些信息均為網(wǎng)絡(luò)公開(kāi)可了解到的信息,不涉及公司機(jī)密,不代表我們公司全都用了這些,也并不代表我們公司只用了這些信息。

② 發(fā)帖 / 評(píng)論,可能會(huì)涉及

發(fā)帖后刪除、短時(shí)間互動(dòng)量超過(guò)一定值、以各種方式生產(chǎn)平臺(tái)不易識(shí)別的違規(guī)內(nèi)容、同一個(gè)人擁有多個(gè)賬號(hào)多個(gè)設(shè)備發(fā)帖、使用相同圖片等。

③ 獲得收益,可能會(huì)涉及

僅從在某些激勵(lì)場(chǎng)景發(fā)帖、僅給某些用戶互動(dòng)、互動(dòng)量主要來(lái)自某些用戶、互動(dòng)量主要來(lái)自某些渠道、瀏覽及被瀏覽數(shù)據(jù)異常,包括渠道 / 時(shí)間 / 用戶 / 用戶等級(jí)異常等問(wèn)題。

④ 轉(zhuǎn)移金額,可能會(huì)涉及

因?yàn)槠脚_(tái)限制提現(xiàn)必須綁定微信,所以用戶會(huì)將多個(gè)賬號(hào)獲得的金額轉(zhuǎn)移到一個(gè)賬號(hào)上,然后進(jìn)行提現(xiàn)。

轉(zhuǎn)移金額異常,包括單次轉(zhuǎn)移金額、累計(jì)轉(zhuǎn)移金額、轉(zhuǎn)移金額對(duì)象、金額來(lái)源占比等的異常。

上面提到的某些行為可能會(huì)貫穿用戶生命周期全流程,例如機(jī)器模擬點(diǎn)擊,所以在接入策略時(shí)也需要在各個(gè)需要驗(yàn)證的場(chǎng)景均接入。

由上面可知,黑灰產(chǎn)可能會(huì)在各個(gè)環(huán)節(jié)作弊,一個(gè)完整的風(fēng)控方案也應(yīng)該是全流程各個(gè)環(huán)節(jié)進(jìn)行防控。

舉例可參考的策略:

  • 用戶有機(jī)器注冊(cè)、篡改設(shè)備、模擬點(diǎn)擊等行為時(shí)打上一個(gè)標(biāo)簽,但并不直接處理,會(huì)在用戶后續(xù)有其他行為時(shí)在結(jié)合這些標(biāo)簽決定是否需要處理;
  • 對(duì)獲得獎(jiǎng)勵(lì)后刪帖的用戶拉入一定周期的獎(jiǎng)勵(lì)黑名單,例如用戶獲得獎(jiǎng)勵(lì)后,將內(nèi)容刪掉,則此用戶在接下來(lái)幾天不可獲得獎(jiǎng)勵(lì);
  • 觸發(fā)違規(guī)做任務(wù)用戶,限制做任務(wù);
  • 設(shè)置發(fā)帖上限,在一定周期內(nèi)僅可發(fā)一定量的帖,超過(guò)則提示暫時(shí)不能再發(fā)布;
  • 針對(duì)多賬號(hào)、多設(shè)備以更嚴(yán)的策略識(shí)別其內(nèi)容;
  • 識(shí)別為互評(píng)、刷流量不給予獎(jiǎng)勵(lì);
  • 降低金額轉(zhuǎn)移上限,用戶作弊會(huì)有作弊成本,降低轉(zhuǎn)移上限可提升用戶作弊成本,保持收益 ≤ 作弊成本,用戶會(huì)主動(dòng)放棄作弊。注:這個(gè)上限設(shè)置也需要控制對(duì)正常用戶的誤傷;
  • 分析金額轉(zhuǎn)移數(shù)據(jù),針對(duì)收入來(lái)源異常、收入總金額異常、收入與等級(jí)不匹配等用戶,再結(jié)合其內(nèi)容及觸發(fā)機(jī)器模擬操作 / 改機(jī)等相關(guān)標(biāo)簽離線處置用戶。

四、處罰方式

在治理中,對(duì)內(nèi)容、對(duì)人,都會(huì)有很多處理方式,例如常見(jiàn)的通過(guò)、拉黑、刪除等。

1. 對(duì)內(nèi)容

對(duì)內(nèi)容處理方式相對(duì)較簡(jiǎn)單,例如,包括通過(guò)、不通過(guò)、自見(jiàn)(僅自己可見(jiàn))、沉貼(去個(gè)人主頁(yè)能看見(jiàn),但不分發(fā))、降權(quán)分發(fā)、僅在部分場(chǎng)景分發(fā)、加精選、置頂?shù)榷伎捎美斫鉃閷?duì)內(nèi)容的處理方式。

2. 對(duì)用戶

對(duì)用戶的要相對(duì)復(fù)雜些,但常見(jiàn)的可以按照以下這樣來(lái)劃分。

1)標(biāo)記

僅做標(biāo)記,不直接處罰,例如機(jī)器登錄,在登錄時(shí)判斷為機(jī)器登錄,會(huì)依然讓用戶進(jìn)行后續(xù)動(dòng)作,可結(jié)合后續(xù)動(dòng)作再?zèng)Q定是否處置。這樣好處是避免誤傷、環(huán)節(jié)更長(zhǎng)黑灰產(chǎn)也更難摸清平臺(tái)的策略,以便減少變形對(duì)抗。

2)挑戰(zhàn)

策略、模型都有一定誤傷,為了降低對(duì)誤傷用戶的傷害,對(duì)觸發(fā)某些策略,則可讓用戶輸入驗(yàn)證碼、滑塊等方式做挑戰(zhàn),挑戰(zhàn)成功則可以繼續(xù)使用,挑戰(zhàn)失敗,則繼續(xù)限制。

3)處罰

階梯處罰每次內(nèi)容違規(guī)會(huì)對(duì)用戶扣分,在一定周期內(nèi)分?jǐn)?shù)達(dá)到一定值時(shí),會(huì)出現(xiàn)相應(yīng)功能限制。舉例,用戶在評(píng)論區(qū)發(fā)一條辱罵文本,則可以扣 1 分,但不處罰用戶,如果在 3 天內(nèi)發(fā)了 10 條,扣了 10 分,就可限制用戶 3 天不允許評(píng)論。

黑白灰名單,最簡(jiǎn)單的理解就是將用戶拉黑,但是從限制主體、限制功能、限制時(shí)間上會(huì)有很多組合。

主體,可以是賬號(hào)、手機(jī)號(hào)、設(shè)備、身份證、銀行卡、微信等。

時(shí)間,可以是 24h、3 天、1 個(gè)月、1 年、永久等。

能,可以是限制登錄、注冊(cè)、綁定、發(fā)布、點(diǎn)贊、查看、精選等。

組合起來(lái)舉一個(gè)例子就是,限制某個(gè)賬號(hào)在 3 天內(nèi)不能登錄,這就可理解為被拉入黑名單了。

注:黑白灰名單的組合如果做到足夠細(xì)致,幾乎可以有無(wú)限種組合,但需在滿足業(yè)務(wù)需求,和易用性之前做好平衡。據(jù)說(shuō)淘寶有數(shù)百種處罰方式。

柔性觸發(fā),即讓用戶做挑戰(zhàn)。

用戶教育,對(duì)于屢教不改的用戶,平臺(tái)可能會(huì)拉入黑名單,但由于用戶在無(wú)知的情況下第一次犯錯(cuò),則可讓用戶做一些答題、學(xué)習(xí)規(guī)范等。舉例,哈羅單車(chē)在第一次違規(guī)停放,可在通過(guò)答題學(xué)習(xí)規(guī)范后取消處罰,第二次再違規(guī)停放,則會(huì)扣 20 塊錢(qián)。

隨機(jī)處罰,這是為了解決一個(gè)問(wèn)題,平臺(tái)上線一套策略,用戶比很快就能試出了策略邏輯,所以會(huì)將相同違規(guī)的用戶選擇性放過(guò)一定比例,給予不同的處罰,甚至不處罰,讓用戶更難摸清平臺(tái)的策略邏輯。注:需考慮哪些策略使用隨機(jī)處罰,選擇哪部分用戶放過(guò)。

迷城,是為了在用戶無(wú)感知的情況下,避免用戶帶來(lái)的傷害。一些在已經(jīng)判斷為違規(guī)的用戶,并未限制其使用私聊功能。因?yàn)槿绻拗?,則用戶容易變著方來(lái)違規(guī),增加平臺(tái)對(duì)抗成本。例如可將用戶發(fā)的消息轉(zhuǎn)接給平臺(tái)機(jī)器人(或固定回復(fù)策略),讓違規(guī)用戶和機(jī)器人私聊,這樣可避免其他用戶收到這個(gè)用戶的違規(guī)消息。

五、治理經(jīng)驗(yàn)

  • 做風(fēng)控需要非常了解業(yè)務(wù)。
  • 盡早建立指標(biāo)評(píng)估體系,在工作推進(jìn)將會(huì)大大降低阻力。
  • 任何時(shí)候都得有兜底方案。
  • 黑灰產(chǎn)作弊一定有作弊動(dòng)機(jī),有作弊成本,可多從提升作弊成本打擊作弊動(dòng)機(jī)角度考慮。
  • 木桶原理,風(fēng)控水平取決于防御體系最薄弱的環(huán)節(jié),漏洞被利用的速度遠(yuǎn)超你的想象。
  • 訓(xùn)練數(shù)周的模型比不過(guò)一條業(yè)務(wù)規(guī)則,這是常有的事情。
  • 對(duì)于黑灰產(chǎn)治理,需要系統(tǒng)性的主動(dòng)防御,避免被黑灰產(chǎn)牽著鼻子走,永遠(yuǎn)有堵不完的口子,填不完的坑。

這里核心是兩個(gè)詞主動(dòng)、系統(tǒng)性。

主動(dòng),需要對(duì)業(yè)務(wù)足夠熟悉、對(duì)黑灰產(chǎn)產(chǎn)業(yè)鏈足夠了解、有情報(bào)來(lái)源、掌控黑灰產(chǎn)動(dòng)向,在還未發(fā)生某些風(fēng)險(xiǎn)之前就提前堵上漏洞。

系統(tǒng)性,需要全鏈路防御,技術(shù)結(jié)合產(chǎn)品功能、運(yùn)營(yíng)一起形成系統(tǒng)性防御。包括在產(chǎn)品的各個(gè)可能出現(xiàn)問(wèn)題的場(chǎng)景上的事前、事中、事后的防御。以及相應(yīng)的監(jiān)控體系、預(yù)警體系。

用戶為了達(dá)到作弊目的,他在業(yè)務(wù)的每一個(gè)節(jié)點(diǎn)都可能出現(xiàn)異常,所以在治理前首先要繪制出完整的用戶行為路徑,理清楚每一個(gè)可能產(chǎn)生異常行為的業(yè)務(wù)位置,然后從各個(gè)節(jié)點(diǎn)全鏈路的打擊,可參考上面「從用戶角度做內(nèi)容治理」這部分。注:不要指望在一個(gè)業(yè)務(wù)節(jié)點(diǎn)上解決所有問(wèn)題。

每個(gè)業(yè)務(wù)節(jié)點(diǎn)的數(shù)據(jù)串聯(lián)是重中之重,當(dāng)前業(yè)務(wù)節(jié)點(diǎn)產(chǎn)生的所有有效結(jié)論,都應(yīng)該流入下一個(gè)業(yè)務(wù)節(jié)點(diǎn)作為輔助特征。下游節(jié)點(diǎn)產(chǎn)生的確切結(jié)論,也應(yīng)反哺上游判斷。

找到絕對(duì)原因很難,但這不影響工作推進(jìn)。有時(shí)候很難找到一群賬號(hào)是否有血緣關(guān)系,但從他們的業(yè)務(wù)數(shù)據(jù)上來(lái)看,基本可確定這是一群人,則可先處理。

六、最后

這篇文章是在寫(xiě)實(shí)際治理的問(wèn)題,以及應(yīng)用的方法,接下來(lái)會(huì)更新一篇治理的整體框架,即把本篇抽象歸納出一個(gè)通用框架。

本文由 @Aaron 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 很全了!

    來(lái)自北京 回復(fù)