日韩精品中文字幕视频最新欧美,在香蕉树下伊人久久久

搜索

APP

起點課堂會員權益

職業(yè)體系課特權

線下行業(yè)大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

開通會員

發(fā)布

注冊 | 登錄

常見的內(nèi)容治理問題有哪些？來看看這篇經(jīng)驗分享

Aaron

2023-03-07

1 評論 5773 瀏覽 64 收藏

🔗 技术知识、行业知识、业务知识等，都是B端产品经理需要了解和掌握的领域相关的知识，有助于进行产品方案设计和评估

在治理內(nèi)容社區(qū)、維護內(nèi)容安全的平臺運營過程中，運營人員往往需要保證內(nèi)容質(zhì)量，避免違規(guī)內(nèi)容的出現(xiàn)，以保障用戶的使用或閱讀體驗。那么，常見的內(nèi)容安全問題和質(zhì)量問題有哪些？我們又應該如何做好治理動作？一起來看看作者的經(jīng)驗分享。

寫這篇文章最害怕的就是涉及公司機密信息，反復檢查了好幾遍所舉案例。

寫這篇文章的目的，首先，這并不會涉及到公司機密。其次，我們治理過的這些問題大部分屬于內(nèi)容行業(yè)共存的問題，但對于不同公司的風控人人員不一定能夠關注全面。

所以打算脫敏寫出來，風控人員可以查漏補缺，希望能夠?qū)?nèi)容行業(yè)產(chǎn)生一點幫助，共同使行業(yè)更好。

在工作中，我負責公司社區(qū)生態(tài)治理，主要包括干掉壞內(nèi)容、干掉壞用戶、提升內(nèi)容質(zhì)量、提升用戶體驗。這篇主要說干掉了哪些壞內(nèi)容、干掉了哪些壞用戶。

本文從以下幾個方面展開來說：

治理內(nèi)容安全問題；
治理內(nèi)容質(zhì)量問題；
從用戶角度做治理；
處罰方式；
治理經(jīng)驗。

一、治理內(nèi)容安全問題

干掉壞內(nèi)容包括兩部分，一部分是業(yè)務型內(nèi)容，即業(yè)務不需要的這部分內(nèi)容，一部分是安全型內(nèi)容，即監(jiān)管部門讓刪除的內(nèi)容。

治理過的安全內(nèi)容很多，例如涉黃、危害青少年、引導錯誤的價值觀、負面輿情等，這些是監(jiān)管部門明確要求不能存在的（這幾個好舉例，其他治理過的涉及安全的內(nèi)容不一定適合舉例）。

二、治理內(nèi)容質(zhì)量問題

對于質(zhì)量型內(nèi)容，監(jiān)管部門不會來要求刪除，但平臺不希望這類型內(nèi)容存在，例如有用戶 5 月份在多條帖子下大量評論“新年快樂”，這個對業(yè)務來說，屬于低質(zhì)評論，需要治理的對象，下面將展開說我們主要治理過的問題。

1. 重復 / 改寫 / 抄襲

由于生產(chǎn)有獎勵，用戶生產(chǎn)有成本，所以部分用戶有動機將已經(jīng)生產(chǎn)的優(yōu)質(zhì)內(nèi)容復制，然后重新發(fā)布以便快速獲得獎勵。

為避免內(nèi)容同質(zhì)化，及平臺花錢買到低質(zhì)內(nèi)容，所以會治理這類型內(nèi)容。

從內(nèi)容形式上劃分可劃分為重復圖片、重復文本（也有重復視頻，但治理方式識別方式類似重復圖片，所以未單獨劃分）。

1）重復圖片

需要治理重復圖片是因為用戶消費一段圖文內(nèi)容時，會優(yōu)先看到圖片，若圖片相同，用戶會默認為文本也相同，進而認為內(nèi)容同質(zhì)化。

若相同圖片出現(xiàn)次數(shù)較少，則可通過算法打散分發(fā)，不讓同一個用戶在短時間內(nèi)看到相同圖片內(nèi)容即可。但若相同圖片出現(xiàn)次數(shù)較大，則較難由分發(fā)打散，且部分分發(fā)場景是 timeline，算法不參與分發(fā)。

使用的識別形式包括兩種，一種是計算圖片 md5，使用絕對相等，一種是相似圖模型識別。識別之后再結合一些策略，當相似度達到一定值，且相似或重復次數(shù)達到一定量，且由≥一定 uid 數(shù)量發(fā)布時，則會對之后進行發(fā)布的內(nèi)容進行一些處理。

在這條通用策略之下，還會配置一些特殊策略，例如針對某些場景 / uid / md5 執(zhí)行不同策略等。

2）重復文本

針對重復文本是和用戶不斷對抗的過程。

① 用戶發(fā)布重復內(nèi)容，平臺開發(fā)重復模型，且將重復度≥一定值的內(nèi)容判定為重復內(nèi)容。注：治理重復內(nèi)容本質(zhì)是希望當前線上不給用戶展示重復內(nèi)容，所以對比內(nèi)容庫僅為線上內(nèi)容。

② 用戶對抗，用戶將之前發(fā)布的內(nèi)容刪除后重新發(fā)布，平臺將對比內(nèi)容庫增加已刪除內(nèi)容。

③ 用戶對抗，用戶通過刪除一頭一尾、替換部分文本、替換數(shù)字、更換不影響語義的標點符號 / 無意義字符、刪掉部分內(nèi)容、替換同義詞、固定模板等方式，生產(chǎn)人工能快速判斷為重復，但重復模型無法識別的內(nèi)容。平臺迭代重復模型，通過梳理用戶改寫的類型，迭代模型，使模型能夠識別出這些類型的重復內(nèi)容。

④ 用戶對抗，用戶通過隨意摘抄一段菜譜、名人語錄、歌詞、電影臺詞等，平臺通過制定審核規(guī)則，由人工判斷。

⑤ 用戶通過其他無法預知的方式生產(chǎn)重復內(nèi)容，平臺通過產(chǎn)品功能優(yōu)化來解決。例如：

要生產(chǎn)重復內(nèi)容，則會從一個地方復制然后在另一個地方粘貼，則可在粘貼提示、粘貼限制等產(chǎn)品功能上優(yōu)化；
生產(chǎn)重復內(nèi)容的用戶有個共性，發(fā)帖量較大，則可對單位時間發(fā)帖上限做限制；
有粘貼行為的用戶較大概率為重復內(nèi)容生產(chǎn)者，則可通過粘貼行為拎出用戶做離線數(shù)據(jù)分析，從用戶維度進行處理；
也可對新進行用戶教育、新手引導、優(yōu)質(zhì)內(nèi)容引導等。

注：以上僅為極簡的策略，在實際應用場景上還有很多細節(jié)限制，例如重復文本的判斷僅針對字數(shù)≥一定值的內(nèi)容才執(zhí)行；例如評論場景和帖子場景會差異化的配置；例如重復模型迭代需要不斷發(fā)現(xiàn)并梳理重復違規(guī)類型。

2. 虛假信息

對于任何平臺都會存在虛假信息，這些虛假信息來自用戶主動或不自知的生產(chǎn)。虛假信息雖然占比較低，但對用戶的影響很大。可能是影響用戶判斷、可能是了解到錯誤信息、可能是進入到一個錯誤行業(yè)、可能是被騙錢財?shù)龋瑤缀趺恳粋€都會對用戶造成較大負面影響。

不管平臺是希望用戶能夠更相信平臺，還是從平臺承擔著一定社會責任角度來說，都需要治理虛假信息。

要治理虛假信息，第一個問題一定會問：什么是虛假信息？

并不能說讓模型判斷，模型覺得是虛假的就是虛假。也不能讓審核人員自己判斷，他覺得是虛假就是虛假，那可能會出現(xiàn)審核人員 A 覺得是虛假信息，但審核人員 B 覺得不是虛假信息。

但也沒辦法給虛假信息一個統(tǒng)一的定義，如果能給出，那一定是去掉了很多細節(jié)，是不具有可執(zhí)行性的一個定義。

所以只能看大量 case、以及看用戶反饋、用戶舉報信息、審核反饋等，收集大量可能是虛假的信息。再自己判斷其中屬于虛假的信息，再劃分不同場景，根據(jù)每一個場景制定不同的標準，定義清楚什么叫做虛假信息。

舉例我們制定過的幾個細分場景下的虛假信息的定義。

① 外賣員、快遞員等，曬收入截圖，月收入超過一定值，或日收入超過一定值，則定義為虛假信息。從行業(yè)數(shù)據(jù)來看，能達到這個數(shù)值的用戶不到 0.5%，相對虛假信息帶來的危害，平臺寧愿接受這部分誤傷的存在。

② 男性，發(fā)布女性照片，并且表達意思為想相親，如果有大哥覺得合適可聯(lián)系我，則定義為虛假信息。可結合用戶認證信息、機器識別照片及文本語義來判斷。

③ 用戶在一定周期內(nèi)過渡頻繁的在內(nèi)容中更換職業(yè)，例如昨天的發(fā)帖說自己是理發(fā)師，今天說自己是電焊工，明天說自己是廚師，則判斷為虛假信息。因為正常用戶不會在這么短的周期內(nèi)這么頻繁的更換職業(yè)，在我們內(nèi)部稱這類型用戶為“百變小櫻”。

此類用戶目的大多為吸引用戶聯(lián)系自己，以便進行下一步詐騙。我們也會制定相應的策略來識別，在一定周期內(nèi)用戶發(fā)帖的身份大于等于一定值，則會送人審，結合這個用戶的其他信息來判斷是否屬于百變小櫻（因為這個策略存在相對較高的誤傷，所以不能機器識別后直接處理）。

通過對虛假信息定義的經(jīng)驗，可形成以下四個步驟來定義治理問題的標準化流程。

步驟一：通過各種渠道瀏覽大量樣本，渠道包括自己瀏覽、用戶反饋、用戶舉報、審核反饋等。
步驟二：針對樣本做特征分析。
步驟三：總結歸納。
步驟四：細分場景制定標準。

3. 話題不相關

話題不相關是指，內(nèi)容行業(yè)為了控制生產(chǎn)方向，往往會產(chǎn)生話題，讓用戶基于話題進行生產(chǎn)相關內(nèi)容。

但用戶在生產(chǎn)內(nèi)容時，可能由于生產(chǎn)成本過高，或無能力生產(chǎn)相關話題的內(nèi)容，或其他原因，會主動去生產(chǎn)和話題不相關的內(nèi)容。

對于用戶消費聚合內(nèi)容來說，這就屬于垃圾內(nèi)容，例如在一個聊 AIGC 的話題下包含一篇聊母豬的產(chǎn)后護理的優(yōu)質(zhì)文章，對于用戶來說是不需要的，在這個場景下屬于垃圾內(nèi)容。

對于識別和話題不相關的內(nèi)容，開發(fā)了話題相關度模型，根據(jù)相關度高低來決定給創(chuàng)作者多少獎勵，及決定內(nèi)容應用場景。

模型主要識別兩個方面。

一類是與話題不相關，例如將話題復制一遍、內(nèi)容和話題完全不相關、答非所問、內(nèi)容完全無意義、同一領域但完全沒回答問題等。舉例：

話題：快遞派送前如何錄入系統(tǒng)？
內(nèi)容：快遞派送前如何錄入系統(tǒng)？他們都在一各家一各減的少嗎？少馬國系統(tǒng)所以說相對來說還是比較麻煩的，只不過是少馬路系統(tǒng)，這樣的話基本上不會有酒駕的問題，我覺得還算是很不錯的吧

另一類雖然與話題相關，但脫離話題的限定條件，例如話題限定了行業(yè)、需包含收入水平、限定了場景，但內(nèi)容并不包含相關信息。舉例：

話題：因為做焊工工作，你得了什么職業(yè)?。?/li>
內(nèi)容：沒從事過焊工，不過倒是有職業(yè)病，比如筋膜炎等。

4. 水帖

來自百科的定義，水帖：水帖是貼吧、論壇或bbs中一種對于主題不重要的、無意義的帖子的統(tǒng)稱。

對于社區(qū)來說，內(nèi)容中充斥著水帖，會降低整個社區(qū)內(nèi)容質(zhì)量，成熟社區(qū)都會治理水帖。

在具體治理過程中就需要生態(tài)治理產(chǎn)品去發(fā)現(xiàn)水帖并總結歸納類型、思考是否需要治理、治理到什么程度、以什么工具治理、給予什么處罰等。

下面舉例一些制定過的策略、規(guī)則，以及使用過的識別模型。

① 純文本，且字數(shù)小于等于一定值

通過分析歷史數(shù)據(jù)發(fā)現(xiàn)，當用戶發(fā)帖小于等于一定值，且不帶圖片時，對于我們平臺，這條內(nèi)容基本不具有消費價值，就會以一種用戶無感知的不分發(fā)的形式處理。

舉例：啦啦啦、夕陽無限好、美好的一天、湖州你好

② 僅包含標點符號、數(shù)字、emoji 等

我們打擊過的黑灰產(chǎn)、治理過的內(nèi)容實例合集

③ 部分 uid 在部分場景發(fā)帖 / 評論

用戶每次違規(guī)都會有記錄，也會扣相應的分數(shù)，當某些類型的違規(guī)在一定周期內(nèi)達到一定次數(shù)，或一定周期內(nèi)的扣分數(shù)達到一定值，則會對用戶進行處罰，即階梯處罰。

舉例，用戶在 7 天內(nèi)發(fā)布水帖次數(shù)≥10 次，則會將用戶在激勵場景的發(fā)帖或評論全部不給予獎勵（注，這并非系統(tǒng)完整邏輯，也并非真實數(shù)字）。

我們打擊過的黑灰產(chǎn)、治理過的內(nèi)容實例合集

④ 命中水帖治理詞庫

我們打擊過的黑灰產(chǎn)、治理過的內(nèi)容實例合集

⑤ 多賬號多設備

若用戶同一個設備上一定周期內(nèi)登錄過多個 uid，或一個 uid 在多個設備上登錄過，分析這些用戶的歷史數(shù)據(jù)，發(fā)現(xiàn)較大量的存在無法識別的水帖（因為平臺策略是有限的，用戶違規(guī)方法是無限的，當用戶了解平臺策略之后，會用各種辦法逃過策略）。

所以會制定一條策略，當用戶觸發(fā)「多賬號多設備」時，則會將他內(nèi)容送入更嚴的模型，例如普通用戶對于低質(zhì)模型，達到 0.9 才處罰，對于「多賬號多設備」用戶的內(nèi)容，則達到 0.8 就會處罰。

⑥ 文本中包含某些關鍵詞，且文本字數(shù)≤一定值

在評論場景，當把所有水帖內(nèi)容拉出來看時會發(fā)現(xiàn)，水帖內(nèi)容也會有一些共性，例如字數(shù)相對較短，雖然長尾很分散，但也會有一些頭部的高頻詞匯，例如紅紅火火恍恍惚惚、哈哈哈、支持一下、謝謝分享、開心每一天、打個卡、你好、謝謝、加油等內(nèi)容。

對于一些短文本，這些詞為主要內(nèi)容，則可理解為水帖。如果是一段 100 字評論，里面包含這些詞，則不能認為這是水帖內(nèi)容。如果不限制字數(shù)或比例，則會很容易出現(xiàn)誤傷。

我們打擊過的黑灰產(chǎn)、治理過的內(nèi)容實例合集

但這對不同平臺的處理嚴格程度不同，我們平臺會選擇治理，其他平臺可能會選擇不治理。治理是因為寧愿用戶少看到評論，也不愿讓用戶看到低質(zhì)評論，以及避免帶來連鎖反應，其他用戶跟著學。

⑦ 非新年期間評論包含「新年快樂」

這是在我剛開始做風控時做過的一條非常失敗的策略。

背景信息，分析歷史數(shù)據(jù)發(fā)現(xiàn)，五月份有部分用戶在評論區(qū)大量發(fā)布「新年快樂」相關評論，雖在設備、IP、賬號、注冊信息、登錄信息等均無關聯(lián)性，但從發(fā)布的內(nèi)容及發(fā)布內(nèi)容時間來看，基本可確認是屬于同一個人或團伙在操作。

且發(fā)類似文本的賬號在不斷新增，所以沒從賬號或設備維度進行治理，而是僅從內(nèi)容維度出了策略，策略邏輯：在非新年期間評論新年快樂及其變形的文本做自見處理（僅自己可見）。

這條策略失敗的點在于，只能解決了當前存在的這個特定問題，未考慮這類問題在將來如何有一個通用的解決方案。例如用戶將「新年快樂」變?yōu)椤钢星锟鞓贰够颉副嘲每础咕褪Я?，且用戶的變形成本極低。

例如可以計算單個用戶周期內(nèi)詞頻，一定頻率可直接處理，一定頻率可送人審。也可以計算全局周期內(nèi)詞頻，對于環(huán)比變化過大的詞可給人工預警提示等。

⑧ 低質(zhì)模型

低質(zhì)模型識別包含語句通順度、虛詞、感嘆詞、亂打字、文本無實際意義等邏輯，以及一些既定策略會融合進模型。

我們打擊過的黑灰產(chǎn)、治理過的內(nèi)容實例合集

雖然很多策略可融合進模型，但由于策略的可解釋性強，易調(diào)整等優(yōu)點，還是會讓一些策略單獨存在，不融合進模型。

以上一些案例幾乎都是從內(nèi)容維度來識別，進而從內(nèi)容維度進行治理，但在工作中還有較大一部分是從內(nèi)容維度識別，然后從用戶維度進行治理，以及從用戶維度識別，從用戶維度治理，從用戶維度進行治理將在下一章展開說。

以上所舉例都是發(fā)現(xiàn)了某些問題，然后進行治理，但如何去發(fā)現(xiàn)這些問題的，在這篇文章中有詳細說：《風控：上線一條規(guī)則/策略的完整流程》。

5. 聯(lián)系方式

所說聯(lián)系方式包括圖片 / 視頻 / 音頻 / 文本中包含手機號、微信號、qq、網(wǎng)址、二維碼等聯(lián)系方式，以及以上內(nèi)容的變形。例如空格隔開、中英文、拼音、手寫、中文音異、電話通話截圖、半打馬賽克、形異、文本頭像結合、拍攝名片 / 拍攝二維碼 / 海報 / 宣傳單 / 紙條 / 手寫聯(lián)系方式、手寫并簡單計算，以及誘導聯(lián)系方式等。

我們不允許發(fā)布聯(lián)系方式，因為社區(qū)場景不需要聯(lián)系方式。并且經(jīng)分析歷史數(shù)據(jù)發(fā)現(xiàn)，當出現(xiàn)聯(lián)系方式時，比較大概率會同時出現(xiàn)詐騙、刷鉆引流、廣告、逃單、隱私安全、線下風險、騷擾、賬號交易等，帶來危害比較嚴重，且容易漏識別，所以可從杜絕聯(lián)系方式角度降低詐騙、刷鉆引流、廣告等問題。

針對這些問題也會建設對應策略來識別。舉例部分策略：

文本中數(shù)字或字母連續(xù)≥一定值，則認為這是連續(xù)方式；
檢測電話、QQ號、微信號、網(wǎng)址、二維碼；
檢測數(shù)字+分段聯(lián)系方式；
檢測變形聯(lián)系方式；
檢測多昵稱拼接聯(lián)系方式；
檢測多條回復拼接聯(lián)系方式；
檢測含數(shù)字變形的聯(lián)系方式；
檢測內(nèi)容包含惡意引流文本且檢測包含聯(lián)系方式；
以及制定人工審核規(guī)則等；
……

一些案例：

點擊[http:/xxxxxxxx]查看表情
看到你的留言了，佳沃k16rvvf7
為我，A嗯6嗯0嗯5嗯9嗯3嗯9嗯8嗯
妖霧氣嗚嗚妖吧妖霧三氣
加v ?yan 七二四三九xx五
想了解咨詢我吧：壹肆柒xx伍零柒柒柒捌！?。。?/li>
l六七4420五xx久
請連起來152號823室791廳66聊
1??7??6??9??3??1??9??8??8??3??
??一三八0??一四七0??二八三
欒城房源出租，三室精裝拎包入住。看房電話180-3xx1-3401蘇星
招美團騎手，微信電話同步188..4381…2xx6
中山市上門回收空調(diào) 冰箱洗衣機紙皮等上門回收范圍中山市小欖東鳳東升古鎮(zhèn) 橫欄需要回收舊電器和廢品的朋友們可以私聊本人寶師傅 ①③⑥②O③⑧②②⑨
各種廣告牌，安裝，設計，制造，電話199。0161。xx27
本人有一輛電動車三輪車轉(zhuǎn)讓，有需要做各種小吃可以聯(lián)系我178?44xx?0758謝謝
讓每個家庭擁有一個懂健康的人，管理家人健康，遠離各種疾病。一起學習交流健康知識。18三，1 五七，6 4四二
昌黎上風上水六加一電梯洋房二樓106平帶大下房，電話一，八。三！三五，（七；八。九/（五@ 9同微信，有意者聯(lián)系我
喬家溝租個房子最好是獨院讓養(yǎng)貓養(yǎng)狗有的?176…～3616……xx19
花都北門輕紡城自己的房子出租，一室一廳一廚一衛(wèi)，需要的聯(lián)系，微信同號1八七六九零零三xx三

6. 廣告

絕大多數(shù)平臺都不允許，或者至少是不希望平臺內(nèi)充滿用戶發(fā)布的廣告，只是不同平臺的處理方式不一樣。朋友圈可能是折疊，小紅書可能是不給流量，其他平臺可能是無法審核通過。這些廣告由于大量重復、低質(zhì)、以及無法驗證真假、影響公司其他業(yè)務、污染信息流等問題，平臺通常會選擇治理廣告。

對廣告的治理和虛假信息的治理類似，沒辦法對「廣告」有一個統(tǒng)一的定義，所以得梳理 case，在各個細分場景制定規(guī)則。

舉例一些制定過的策略；
對廣告文本的檢測；
對出租求租信息檢測、對招聘求職信息檢測；
對屏蔽詞庫檢測、對刷鉆吸粉詞庫檢測、廣告法詞庫檢測；
“連、起、來”開頭結尾黑產(chǎn)檢測；
過引流模型；
營銷反作弊數(shù)據(jù)檢測；
以及制定相關的人審規(guī)則；
……

上面舉例的是一些識別廣告的策略，但從廣告特性上來說，用戶發(fā)布廣告絕大部分是希望能夠與自己聯(lián)系，所以具體在治理時大部分是從聯(lián)系方式、私聊角度來治理，會更高效?；蛘吒鶕?jù)多條策略的結果結合來決定處罰方式。

以下兩個案例為引流模型識別出來的內(nèi)容。

帶一些新人，看個人銀行額度賺錢，一天一萬+ 感興趣私聊詳談。
押車借款利息低，額度高。

注：還有很多類型內(nèi)容也屬于廣告，但會被劃分到更細的分類里面，例如「副業(yè)」類、「醫(yī)美」類。

7. 不文明用語

對于不文明用語，在不同平臺的接受程度不同，我們平臺會治理辱罵及不文明用語，希望給生產(chǎn)者及消費者帶來一個更文明和諧的生態(tài)環(huán)境。

治理方式主要是辱罵詞檢測、辱罵模型檢測，以及人工審核。對于詞庫網(wǎng)上可找到公開詞庫，以及平臺自己不斷完善。對于辱罵模型，屬于中臺工具，業(yè)務只是應用，模型具體邏輯未有機會詳細了解。對于人工審核規(guī)則，則會結合上下文本判斷。

8. 其他類

有很多細分分類被治理過，除了前面展開說的七種，還包括這些。

街拍視頻、網(wǎng)紅無意義擺拍等無消費價值的視頻，對其他平臺可能屬于優(yōu)質(zhì)內(nèi)容，但對我們業(yè)務定位來說，則不需要這類型內(nèi)容；
低俗類、軟色情類；
重復領養(yǎng)、贈送、配對；
視頻帶水印，因為希望用戶發(fā)布原創(chuàng)視頻，而不是從抖快等平臺盜視頻來發(fā)布；
個人隱私，例如涉及完整的各類證件號、爆料某人，并且涉及家庭住址電話號碼等隱私信息；
詐騙類，這其實也是一個大類，下面還可以劃分很多細分場景進行治理，例如信用卡類詐騙、創(chuàng)業(yè)合伙類詐騙、相親類詐騙、理財類詐騙、東南亞招聘類詐騙、菠菜類詐騙；
……

9. 治理中一些常用工具（模型能力）

重復模型、相似圖模型、低質(zhì)模型、網(wǎng)賺模型、涉黃模型、低俗模型、引流模型、辱罵模型、涉政算法等。

識別香煙、變形聯(lián)系方式、政治人物、明星、美女圖、emoji、血腥、暴恐、蠟燭、刀具、識別人體各個部位，包括腿 / 胸 / 肩 / 背 / 臀等。

業(yè)務進行治理時，大多數(shù)能力會應用中臺能力，部分時候由于中臺無法提供個性化能力或時間緊張等原因，業(yè)務會自己開發(fā)模型。

三、從用戶角度做治理

我的工作是內(nèi)容治理，但很多情況下內(nèi)容不易識別，會考慮從用戶角度來做內(nèi)容治理，從作弊動機出發(fā)。

對于我們業(yè)務，用戶作弊動機主要分為兩類，一類是發(fā)廣告，一類是通過做任務進而獲得收益。

對于發(fā)廣告動機的用戶，從內(nèi)容角度特性明顯，例如高頻發(fā)布重復內(nèi)容、都帶聯(lián)系方式、主要從非賺錢入口發(fā)布等，比較好治理，涉及到用戶相關只有用戶在短期內(nèi)多次發(fā)布廣告，然后拉黑用戶。

對于通過做任務獲得收益，用戶會有一個完整的作弊流程，如下圖：

我們打擊過的黑灰產(chǎn)、治理過的內(nèi)容實例合集

正常用戶的流程：注冊 → 登錄 → 發(fā)帖/評論 → 獲得收益 → 提現(xiàn)。
作弊用戶的流程：注冊 → 登錄 → 發(fā)帖/評論 → 多設備多賬號/相互評論/互刷流量/發(fā)重復圖等 → 低質(zhì)內(nèi)容 → 獲得收益 → 轉(zhuǎn)移金額 → 提現(xiàn)。

作弊用戶的流程中每一個環(huán)節(jié)均有多種可作弊空間，例如：

① 注冊 / 登錄，可能會涉及

惡意注冊、批量注冊、設備指紋黑名單、黑卡賬號、機器登錄、貓池、root、hook、篡改設備、安裝黑產(chǎn)工具 & 模擬點擊 App、篡改 ua、安裝改機app、安裝云控 App、短時關聯(lián)用戶過多、參數(shù)格式錯誤、參數(shù)間不匹配、設備硬件信息不匹配等。

注：這些信息均為網(wǎng)絡公開可了解到的信息，不涉及公司機密，不代表我們公司全都用了這些，也并不代表我們公司只用了這些信息。

② 發(fā)帖 / 評論，可能會涉及

發(fā)帖后刪除、短時間互動量超過一定值、以各種方式生產(chǎn)平臺不易識別的違規(guī)內(nèi)容、同一個人擁有多個賬號多個設備發(fā)帖、使用相同圖片等。

③ 獲得收益，可能會涉及

僅從在某些激勵場景發(fā)帖、僅給某些用戶互動、互動量主要來自某些用戶、互動量主要來自某些渠道、瀏覽及被瀏覽數(shù)據(jù)異常，包括渠道 / 時間 / 用戶 / 用戶等級異常等問題。

④ 轉(zhuǎn)移金額，可能會涉及

因為平臺限制提現(xiàn)必須綁定微信，所以用戶會將多個賬號獲得的金額轉(zhuǎn)移到一個賬號上，然后進行提現(xiàn)。

轉(zhuǎn)移金額異常，包括單次轉(zhuǎn)移金額、累計轉(zhuǎn)移金額、轉(zhuǎn)移金額對象、金額來源占比等的異常。

上面提到的某些行為可能會貫穿用戶生命周期全流程，例如機器模擬點擊，所以在接入策略時也需要在各個需要驗證的場景均接入。

由上面可知，黑灰產(chǎn)可能會在各個環(huán)節(jié)作弊，一個完整的風控方案也應該是全流程各個環(huán)節(jié)進行防控。

舉例可參考的策略：

用戶有機器注冊、篡改設備、模擬點擊等行為時打上一個標簽，但并不直接處理，會在用戶后續(xù)有其他行為時在結合這些標簽決定是否需要處理；
對獲得獎勵后刪帖的用戶拉入一定周期的獎勵黑名單，例如用戶獲得獎勵后，將內(nèi)容刪掉，則此用戶在接下來幾天不可獲得獎勵；
觸發(fā)違規(guī)做任務用戶，限制做任務；
設置發(fā)帖上限，在一定周期內(nèi)僅可發(fā)一定量的帖，超過則提示暫時不能再發(fā)布；
針對多賬號、多設備以更嚴的策略識別其內(nèi)容；
識別為互評、刷流量不給予獎勵；
降低金額轉(zhuǎn)移上限，用戶作弊會有作弊成本，降低轉(zhuǎn)移上限可提升用戶作弊成本，保持收益 ≤ 作弊成本，用戶會主動放棄作弊。注：這個上限設置也需要控制對正常用戶的誤傷；
分析金額轉(zhuǎn)移數(shù)據(jù)，針對收入來源異常、收入總金額異常、收入與等級不匹配等用戶，再結合其內(nèi)容及觸發(fā)機器模擬操作 / 改機等相關標簽離線處置用戶。

四、處罰方式

在治理中，對內(nèi)容、對人，都會有很多處理方式，例如常見的通過、拉黑、刪除等。

1. 對內(nèi)容

對內(nèi)容處理方式相對較簡單，例如，包括通過、不通過、自見（僅自己可見）、沉貼（去個人主頁能看見，但不分發(fā)）、降權分發(fā)、僅在部分場景分發(fā)、加精選、置頂?shù)榷伎捎美斫鉃閷?nèi)容的處理方式。

2. 對用戶

對用戶的要相對復雜些，但常見的可以按照以下這樣來劃分。

1）標記

僅做標記，不直接處罰，例如機器登錄，在登錄時判斷為機器登錄，會依然讓用戶進行后續(xù)動作，可結合后續(xù)動作再決定是否處置。這樣好處是避免誤傷、環(huán)節(jié)更長黑灰產(chǎn)也更難摸清平臺的策略，以便減少變形對抗。

2）挑戰(zhàn)

策略、模型都有一定誤傷，為了降低對誤傷用戶的傷害，對觸發(fā)某些策略，則可讓用戶輸入驗證碼、滑塊等方式做挑戰(zhàn)，挑戰(zhàn)成功則可以繼續(xù)使用，挑戰(zhàn)失敗，則繼續(xù)限制。

3）處罰

階梯處罰，每次內(nèi)容違規(guī)會對用戶扣分，在一定周期內(nèi)分數(shù)達到一定值時，會出現(xiàn)相應功能限制。舉例，用戶在評論區(qū)發(fā)一條辱罵文本，則可以扣 1 分，但不處罰用戶，如果在 3 天內(nèi)發(fā)了 10 條，扣了 10 分，就可限制用戶 3 天不允許評論。

黑白灰名單，最簡單的理解就是將用戶拉黑，但是從限制主體、限制功能、限制時間上會有很多組合。

主體，可以是賬號、手機號、設備、身份證、銀行卡、微信等。

時間，可以是 24h、3 天、1 個月、1 年、永久等。

功能，可以是限制登錄、注冊、綁定、發(fā)布、點贊、查看、精選等。

組合起來舉一個例子就是，限制某個賬號在 3 天內(nèi)不能登錄，這就可理解為被拉入黑名單了。

注：黑白灰名單的組合如果做到足夠細致，幾乎可以有無限種組合，但需在滿足業(yè)務需求，和易用性之前做好平衡。據(jù)說淘寶有數(shù)百種處罰方式。

柔性觸發(fā)，即讓用戶做挑戰(zhàn)。

用戶教育，對于屢教不改的用戶，平臺可能會拉入黑名單，但由于用戶在無知的情況下第一次犯錯，則可讓用戶做一些答題、學習規(guī)范等。舉例，哈羅單車在第一次違規(guī)停放，可在通過答題學習規(guī)范后取消處罰，第二次再違規(guī)停放，則會扣 20 塊錢。

隨機處罰，這是為了解決一個問題，平臺上線一套策略，用戶比很快就能試出了策略邏輯，所以會將相同違規(guī)的用戶選擇性放過一定比例，給予不同的處罰，甚至不處罰，讓用戶更難摸清平臺的策略邏輯。注：需考慮哪些策略使用隨機處罰，選擇哪部分用戶放過。

迷城，是為了在用戶無感知的情況下，避免用戶帶來的傷害。一些在已經(jīng)判斷為違規(guī)的用戶，并未限制其使用私聊功能。因為如果限制，則用戶容易變著方來違規(guī)，增加平臺對抗成本。例如可將用戶發(fā)的消息轉(zhuǎn)接給平臺機器人（或固定回復策略），讓違規(guī)用戶和機器人私聊，這樣可避免其他用戶收到這個用戶的違規(guī)消息。

五、治理經(jīng)驗

做風控需要非常了解業(yè)務。
盡早建立指標評估體系，在工作推進將會大大降低阻力。
任何時候都得有兜底方案。
黑灰產(chǎn)作弊一定有作弊動機，有作弊成本，可多從提升作弊成本打擊作弊動機角度考慮。
木桶原理，風控水平取決于防御體系最薄弱的環(huán)節(jié)，漏洞被利用的速度遠超你的想象。
訓練數(shù)周的模型比不過一條業(yè)務規(guī)則，這是常有的事情。
對于黑灰產(chǎn)治理，需要系統(tǒng)性的主動防御，避免被黑灰產(chǎn)牽著鼻子走，永遠有堵不完的口子，填不完的坑。

這里核心是兩個詞主動、系統(tǒng)性。

主動，需要對業(yè)務足夠熟悉、對黑灰產(chǎn)產(chǎn)業(yè)鏈足夠了解、有情報來源、掌控黑灰產(chǎn)動向，在還未發(fā)生某些風險之前就提前堵上漏洞。

系統(tǒng)性，需要全鏈路防御，技術結合產(chǎn)品功能、運營一起形成系統(tǒng)性防御。包括在產(chǎn)品的各個可能出現(xiàn)問題的場景上的事前、事中、事后的防御。以及相應的監(jiān)控體系、預警體系。

用戶為了達到作弊目的，他在業(yè)務的每一個節(jié)點都可能出現(xiàn)異常，所以在治理前首先要繪制出完整的用戶行為路徑，理清楚每一個可能產(chǎn)生異常行為的業(yè)務位置，然后從各個節(jié)點全鏈路的打擊，可參考上面「從用戶角度做內(nèi)容治理」這部分。注：不要指望在一個業(yè)務節(jié)點上解決所有問題。

每個業(yè)務節(jié)點的數(shù)據(jù)串聯(lián)是重中之重，當前業(yè)務節(jié)點產(chǎn)生的所有有效結論，都應該流入下一個業(yè)務節(jié)點作為輔助特征。下游節(jié)點產(chǎn)生的確切結論，也應反哺上游判斷。

找到絕對原因很難，但這不影響工作推進。有時候很難找到一群賬號是否有血緣關系，但從他們的業(yè)務數(shù)據(jù)上來看，基本可確定這是一群人，則可先處理。