淺談反垃圾策略:如何營造一個良好的內(nèi)容環(huán)境?
做UGC產(chǎn)品常碰見的難題是什么?那就是如何篩選與過濾垃圾信息,為社區(qū)塑造良好的產(chǎn)品調(diào)性與氛圍,為用戶提供良好的產(chǎn)品體驗。本文中,筆者也結(jié)合了自己的思考,為我們介紹了信息發(fā)布的流程以及如何篩選垃圾信息的判斷。
垃圾信息幾乎是每個產(chǎn)品不可避免的問題,尤其是以UGC為主的產(chǎn)品。
如果無法對這群水軍、營銷者加以控制,那么不光產(chǎn)品本身氛圍,甚至可能帶來惡性循環(huán)。比如在一個社區(qū)里,充斥著大量低劣的廣告,則新用戶也很難提起興致去參與討論。
所以,本文主要來探討在這種敵明我暗的互聯(lián)網(wǎng)環(huán)境中,該如何反垃圾信息,擁護(hù)一個良好的環(huán)境,同時避免誤傷到我們的真實(shí)用戶。
一、什么是垃圾信息
在探討反垃圾策略之前,我們先將互聯(lián)網(wǎng)上的垃圾信息做下簡單的歸類。
1. 廣告
最常見的必然是廣告,只要我們的產(chǎn)品具有一定的用戶量,那么必然像水果吸引蒼蠅一樣,引來不少各類營銷者前來蹭流量。
他們通常會在評論區(qū)、彈幕、公屏等能夠和他人交流的地方瘋狂刷屏。
2. 低質(zhì)內(nèi)容
因為太過廣泛,所以這類信息其實(shí)我也不知該如何定義。
它可以理解為水貼,這類低質(zhì)量的內(nèi)容對用戶沒有什么吸引力,甚至泛濫的時候影響到了產(chǎn)品的內(nèi)容生態(tài)、制度的公正性。
比如知乎里大量簡短無意義的回答,豆瓣里被水軍惡意差評過的電影等。
3. 違法信息
這類政治敏感、黃賭毒等信息,不光對用戶有所影響,甚至國家政策也在嚴(yán)控。若不能有效控制,則產(chǎn)品本身運(yùn)營也存在風(fēng)險,此前有不少APP就因此被關(guān)停整改了。
二、發(fā)布信息的流程
了解完何為垃圾信息后,我們再來看下這些信息是如何被生產(chǎn)出來的,以便思考該怎么樣制定相應(yīng)的策略防范它們的產(chǎn)生。
我們以一個最常見的發(fā)表評論為例:
如圖所示,我畫了一個相當(dāng)簡單的流程圖:
第一步:用戶觸發(fā)
我們也可以稱之為行為門檻,什么類型的用戶才允許發(fā)表評論?
相信大家可能經(jīng)常遇到這樣的情況,當(dāng)你看完一篇文章后,興沖沖要發(fā)表點(diǎn)想法時,系統(tǒng)會冰冷地彈出一個窗口,讓你先登錄;而在登錄之后,又要求你綁定手機(jī)號;綁定完后,還要等待注冊時長滿24小時……
諸如此類,越是成熟活躍的社區(qū),它可能寧愿降低新用戶的體驗,也要保證新內(nèi)容的質(zhì)量。
第二步:撰寫評論
可能不同的產(chǎn)品千差萬別,但籠絡(luò)地歸納起來,其實(shí)就是內(nèi)容形式和限制條件。
評論內(nèi)容是純文字還是帶圖片?字?jǐn)?shù)限制多少?圖片最多允許幾張?只有明確了用戶將產(chǎn)生哪些信息,我們才能夠有效地針對處理。
第三步:確認(rèn)發(fā)表
這一步其實(shí)是繼準(zhǔn)入門檻之后的延伸,我把它稱為內(nèi)容門檻,可以對發(fā)表的評論先做一個簡單的校驗。
比如空內(nèi)容、純字符、大段重復(fù)等明顯垃圾信息,我們可以將它攔截在這里,都無需進(jìn)入審核。
第四步:評論審核
審核可以分成人工、機(jī)器。
在評論量特別大的產(chǎn)品里,如果靠人在審核將是特別大的工作量,也很可能出現(xiàn)遺漏。而機(jī)器審核雖然效率高,卻對一些經(jīng)過包裝粉飾的垃圾信息難以識別。
所以我們通常會選擇兩者結(jié)合,下面會進(jìn)一步探討。
第五步:展示/屏蔽
在經(jīng)過重重機(jī)制之后,我們才最終得出結(jié)論:用戶剛發(fā)布的這條評論是留是去。
補(bǔ)充一點(diǎn),現(xiàn)在很多產(chǎn)品即便在判定此條評論為垃圾信息后,也不會簡單粗暴地刪除,而是選擇對外隱藏,但對發(fā)布的用戶還顯示。
這樣的做法當(dāng)然并不是對垃圾信息的寬容,而是為了避免傷害到被誤判的用戶。
額外說明,在這個流程里舉例是先審后發(fā),但也有很多先發(fā)后審,或者像直播那種邊審邊播的場景,這里先不贅述。
三、該如何防范垃圾信息的產(chǎn)生
直到這里,我們可以開始探討除了耗時耗力去逐一人工審核外,我們在產(chǎn)品邏輯、算法機(jī)制上如何應(yīng)對這些垃圾信息吧。
我個人將反垃圾策略分為五個維度,如圖所示:
1. 用戶屬性
顧名思義,用戶屬性其實(shí)就是我們這款產(chǎn)品對TA的一個身份定義,可以涵蓋的有很多,比如:
- 注冊時長
- 有無頭像
- 是否綁定了手機(jī)號
- 是否充值消費(fèi)過
- ……
這些屬性代表了這個用戶在產(chǎn)品上的價值,也可以從側(cè)面觀測出TA是否真的在使用這款產(chǎn)品。
想也知道,那些為發(fā)廣告而來的人肯定不會愿意投入太多精力在這些瑣碎的過程上,所以,我們就可以在上面大做文章,比如需綁定了手機(jī)號的用戶才能發(fā)布新內(nèi)容等等。
同時,我們還可以建立白、黑名單機(jī)制,當(dāng)某個用戶頻繁發(fā)垃圾信息或被舉報后,我們可以禁止他再次發(fā)布內(nèi)容。
2. 操作行為
根據(jù)數(shù)據(jù)觀察,正常的用戶和濫發(fā)垃圾信息的用戶他們的操作行為有很大不同,而且有部分甚至是采用腳本或軟件進(jìn)行群發(fā)。
像那些發(fā)廣告的人為追求效率,他們總是頻繁地復(fù)制黏貼重復(fù)一個流程,每次發(fā)布新內(nèi)容的時間間隔都很短,我們自然也可以在上面做相應(yīng)限制。
比如,同一個設(shè)備號/IP/賬號ID的用戶在3分鐘內(nèi)最多發(fā)1條新的內(nèi)容。
該如何制定這項相關(guān)的策略,其實(shí)在于我們對真、假用戶的行為判定,你去想想哪些行為真的用戶不屑于做,而假的用戶又在頻繁操作那么很快就會明白了。
像大家都知道,微信的安全策略特別高,經(jīng)常封號,因為它會經(jīng)常檢測出那些具有頻繁添加好友、地理位置不變/變動異常、時常群發(fā)等行為特質(zhì)的違規(guī)用戶進(jìn)行處理。
3. 內(nèi)容信息
通過檢查內(nèi)容本身來判定這條信息是否符合要求,是反垃圾中的一個最常見策略,也是機(jī)器算法不斷在深入研究的一個方向,只可惜這項技術(shù)本身看著不錯,但在實(shí)際應(yīng)用時往往不盡如人意。
如果你曾做過防垃圾相關(guān)的工作,那么你會發(fā)現(xiàn)“上有政策、下有對策”。
中華漢字的文化博大精深,比如我們不希望內(nèi)容信息里出現(xiàn)“公眾號”這類帶有引流特性的詞語,那么很快就會衍生出“gongzhonghao”“厷眾號”“gong眾呺”這類夾雜著拼音、火星體的來替代。
而且這些垃圾信息在不斷地被屏蔽、被封號中也在進(jìn)化,廣告越來越軟,暗示越來越隱晦。
像淘寶在微信圈的分享文案一直是行業(yè)內(nèi)的一個笑話,如果你作為微信的PM,讓你去堵住這種信息,是不是也很頭疼?
不過潑完冷水,我們還是要繼續(xù)探討下該用什么規(guī)則去判斷這條內(nèi)容信息能否過審?
我個人覺得主意有以下這兩個維度:
(1)違禁詞庫
其實(shí)就是將所有不希望用戶發(fā)布的內(nèi)容窮舉出來,比如“加微信”“招兼職”這類詞語,當(dāng)用戶的內(nèi)容中包括了這些詞語,并達(dá)到了某個頻率,我們可以將這條內(nèi)容判定為垃圾信息。
(2)重復(fù)率
絕大多數(shù)情況中,垃圾信息并非偶例,而是成批出現(xiàn);且因為那個用戶的目的通常為一個,所以TA產(chǎn)生的內(nèi)容會有所重復(fù)。
因為為了宣傳效率,TA不太可能每次發(fā)布內(nèi)容都重新編寫一套話語。
所以我們通常可以將用戶新發(fā)的內(nèi)容將TA的歷史記錄做比較,若重復(fù)率極高且頻繁,那TA可能正在制造大量的垃圾信息。
4. 大數(shù)據(jù)庫
垃圾信息幾乎是所有產(chǎn)品的深受其擾的問題之一,所以現(xiàn)在也有不少可供接入使用的反垃圾系統(tǒng),它們的價值核心就在于有海量的大數(shù)據(jù)樣本,且在不斷擴(kuò)充,對不同領(lǐng)域的垃圾信息都能很好的識別。
利用大數(shù)據(jù)的最大好處就是,全網(wǎng)共享信息,比如某個微信用戶在平臺A被禁了,那么平臺B也能夠知曉這個消息,對這個用戶嚴(yán)防以待。
5. 抬高成本
因為垃圾信息是由人產(chǎn)生的,我們在看到表象的同時,也可以換個角度去思考這些人的動機(jī)。
比如說廣告,一個微商為了賣出TA的產(chǎn)品,就希望引來客流關(guān)注,TA的動機(jī)是為了賺錢,而在發(fā)布廣告信息時,TA其實(shí)也存在成本,精力和金錢。
我們規(guī)定必須綁定過手機(jī)號的用戶才可以發(fā)內(nèi)容,TA就需要多花兩分鐘去綁定;我們規(guī)定必須消費(fèi)過的用戶才可以點(diǎn)評,那TA就需要花一定的金額才能點(diǎn)評……
這些規(guī)定其實(shí)都是在提升濫發(fā)垃圾信息的人的成本,當(dāng)TA在我們產(chǎn)品上發(fā)布成本大于所能獲得的回報時,那么TA也沒理由再繼續(xù)這個行為了。
有一項應(yīng)用在反垃圾郵件中比較有效的策略就是,當(dāng)用戶發(fā)送一封新郵件時,需要消耗TA的設(shè)備資源進(jìn)行一些計算,這對于個人來說微不可察。但對于頻繁發(fā)送垃圾郵件的人來說,將是不少負(fù)擔(dān)。
當(dāng)然,規(guī)定絕非越嚴(yán)越好,因為我們還得考慮正常用戶,如果要求太嚴(yán)苛,將大多數(shù)用戶拒之門外,也不是件好事。
四、舉個實(shí)例
講完枯燥的理論,最后舉個例子吧。
以《QQ閱讀》產(chǎn)品為例,根據(jù)書籍的評論區(qū)這一功能,我們該如何防止垃圾評論的產(chǎn)生?
首先,還是基于原來畫的那個簡單的流程圖,然后運(yùn)用上述策略做擴(kuò)展。
1. 首先是用戶觸發(fā)的門檻。為了保證多數(shù)用戶的體驗,可以先做個用戶分群,因為垃圾信息通常是由新用戶產(chǎn)生,所以在發(fā)布評論上,新用戶的要求將比老用戶更高,比如:
2. 其次,在撰寫評論時,我們可以對用戶做一些基本的約束,比如:
3. 然后,在確認(rèn)發(fā)表時,我們需判斷下是否讓用戶發(fā)表,進(jìn)入下一流程,在這個流程上其實(shí)也可以寬松一些,比如只判斷正文內(nèi)容是否為空。
4. 接下來,可以調(diào)下原流程圖的順序,將原來的先審后發(fā)改為先發(fā)后審。
因為這樣能夠讓用戶發(fā)表完成后,即時看到TA的內(nèi)容,體驗更佳。但為了防止垃圾信息對別的用戶造成影響,所以可以在此之間加入一條規(guī)則——用戶發(fā)表后的內(nèi)容在初次審核之前,暫時只對TA自己可見。
也就是說,當(dāng)用戶寫了一條書評后,當(dāng)TA點(diǎn)下“發(fā)表”,就立刻能在信息流里看到;但這個書評在未審核完成前,除TA之外的人是看不到的。
這種做法兩邊兼顧,既給了用戶良好的反饋又防止了垃圾信息帶來的影響。
5. 而審核方面,可以同時接入人工和機(jī)器審核。其實(shí)第4步所說的初審核,也是機(jī)器審核,只要初略判斷用戶發(fā)布的評論沒大問題,就可以對外開放給其他人。機(jī)器審核的耗時較短,可能用戶都不會察覺到。
6. 同時,因為考慮到人工審核是件極費(fèi)人力的事情,可以再加入舉報機(jī)制、黑名單機(jī)制,來幫助運(yùn)營人員更快的去處理垃圾信息。
最后,附上一個完整的流程圖,以便更好的理解。
關(guān)于反垃圾策略,暫時就只探討這么多,畢竟個人經(jīng)驗有限,還希望對大家能有所幫助。
另外,其實(shí)上文中很多內(nèi)容其實(shí)針對都是廣告類的垃圾信息,并不適用于低質(zhì)內(nèi)容。
而在一個產(chǎn)品中如何提升UGC的內(nèi)容質(zhì)量,應(yīng)該是另一套策略了。比如,定下產(chǎn)品調(diào)性、引入核心用戶、激勵政策、內(nèi)容再傳播等,希望有機(jī)會再一起探討。
本文由 @貓丸 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議
想請教一下,如果是先發(fā)后審,那么審核通過后的時間流怎么處理呢?是依然按照用戶發(fā)布時間排序嘛?
看看微博 就知道了,除非注重時效性,不然用戶對時間的感知度制度不太重要。
頗有收獲
總感覺缺點(diǎn)什么…沒有形成閉環(huán)?只有自己單方作戰(zhàn)?用戶體系好像也沒有搭建
某寶的宣傳文案也可以從結(jié)構(gòu)上匹配下