為什么我認(rèn)為無監(jiān)督學(xué)習(xí)在反欺詐中的應(yīng)用場景是一場噱頭?

0 評論 7656 瀏覽 10 收藏 16 分鐘
🔗 产品经理专业技能指的是:需求分析、数据分析、竞品分析、商业分析、行业分析、产品设计、版本管理、用户调研等。

近些年來,“無監(jiān)督學(xué)習(xí)在反欺詐中的應(yīng)用”這一概念非?;?,然而從應(yīng)用場景以及實際效果來看,這更像是一場被扭曲的騙局。

很久沒更新這個公眾號,翻一下歷史記錄,上一篇文章都已經(jīng)是年前了。年前的文章中的coming soon中就說過想寫一篇關(guān)于無監(jiān)督學(xué)習(xí)的文章,不過萬惡的拖延癥一直阻止著我,趁著出差在火車上更新了這篇稿子。

最近聽到比較火的觀點(項目目標(biāo)、工作計劃等)就是:我要在反欺詐工作中應(yīng)用無監(jiān)督學(xué)習(xí)的算法,其實這樣的論點在2015年的時候就已經(jīng)零零散散地聽到了。

最近這一年多因為互金風(fēng)控發(fā)展的原因,這個論點開始頻繁現(xiàn)身于各大交流論壇、公眾號文章,這種感覺就像無監(jiān)督學(xué)習(xí)算法是一個先進的手段,不用無監(jiān)督學(xué)習(xí)就證明你的反欺詐水平很low,隱隱間,感覺有一種販賣焦慮的咪蒙雞湯~

再到后來,我甚至發(fā)現(xiàn)一點統(tǒng)計背景都沒有的做風(fēng)控的人在各種場合都開始大談無監(jiān)督學(xué)習(xí),用自己對無監(jiān)督學(xué)習(xí)一點模糊的認(rèn)知來體現(xiàn)自己是個走在領(lǐng)域前沿的行業(yè)專家,感覺有點歪風(fēng)盛行。

一、一個領(lǐng)域何種場景下會使用新方法?

無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)都是出現(xiàn)了幾十年的方法,每一類方法下面都有好幾大類經(jīng)典的算法,在風(fēng)控之外的領(lǐng)域他們都因為算法的不同特性有了很好的落地應(yīng)用,那為什么這幾十年來風(fēng)控行業(yè)都在用有監(jiān)督學(xué)習(xí)來做模型,而從我的行業(yè)了解狀況來看,無監(jiān)督學(xué)習(xí)很難有成熟的落地應(yīng)用。為什么這兩年無監(jiān)督學(xué)習(xí)突然又被炒起來來呢,是因為發(fā)生了什么變化么?

其實我們都知道,一個方法/工具與特定場景能夠產(chǎn)生新的化學(xué)反應(yīng)的原因無外乎以下三點:

(1)這是一個新的方法/工具,過去從來沒有出現(xiàn)過。(2)這個方法/工具以前已經(jīng)有,但是因為條件受限制,在該場景中從來沒有人使用過。

(3)特定的場景發(fā)生了新的業(yè)務(wù)外延,讓這個方法/工具有了新的用武之地。

1. 是因為無監(jiān)督學(xué)習(xí)的方法剛剛出現(xiàn)嗎?

很明顯不是,好幾類經(jīng)典的無監(jiān)督學(xué)習(xí)方法出現(xiàn)時間估計有一百年時間了(此處我沒有細(xì)細(xì)考察,希望指正),而有監(jiān)督學(xué)習(xí)當(dāng)中經(jīng)典的邏輯回歸方法應(yīng)該是在1950年之后出現(xiàn)的事情,所以這不是一個新的方法。

2. 是因為無監(jiān)督學(xué)習(xí)在反欺詐場景中的使用條件限制嗎?

很明顯也不是,限制一個學(xué)習(xí)算法在場景中的應(yīng)用最大的束縛無外乎就是計算速度的問題,而在有監(jiān)督學(xué)習(xí)中,很多算法的計算量遠(yuǎn)遠(yuǎn)大于無監(jiān)督學(xué)習(xí)。所以肯定也不是硬件和軟件條件的限制。

3. 是因為反欺詐業(yè)務(wù)中出現(xiàn)了新的特征和業(yè)務(wù)外延嗎?

這是目前認(rèn)為反欺詐中需要無監(jiān)督學(xué)習(xí)的主要的論點:目前隨著互聯(lián)網(wǎng)形態(tài)的發(fā)展,互聯(lián)網(wǎng)對運營效率的提升同時也帶來了非面對面交易、高并發(fā)、非結(jié)構(gòu)性數(shù)據(jù)的反欺詐難點,傳統(tǒng)的專家規(guī)則和有監(jiān)督學(xué)習(xí)難以解決錯綜復(fù)雜、變幻莫測的欺詐形式,如果能夠用無監(jiān)督學(xué)習(xí)自動的把相似的點全部聚集在一起,就可以找出欺詐團伙。???

是的,看起來很有道理的樣子,感覺也能說得通,但是實際上真的是如此嗎?

二、無監(jiān)督學(xué)習(xí)在反欺詐中的應(yīng)用怎么就火了?

無監(jiān)督學(xué)習(xí)在反欺詐學(xué)習(xí)中的應(yīng)用這個論點火起來的心路歷程大概就是:

(1)A(行業(yè)KOL):

有人邀請我去風(fēng)控論壇做演講,講點啥呢?

該講的都講過了,怎么體現(xiàn)我逼格更高呢?

好像前幾天在網(wǎng)上看過無監(jiān)督學(xué)習(xí)在反欺詐應(yīng)用的例子,雖然我們公司也沒怎么應(yīng)用落地,那就講無監(jiān)督學(xué)習(xí)吧。

(2)B(部門leader):

又要寫明年規(guī)劃了,怎么樣才能把工作規(guī)劃逼格抬上去呢?

好像前兩天在論壇上看過有家同業(yè)好像用無監(jiān)督學(xué)習(xí)了,那我寫上去吧,好不好用到時候再說。

(3)C(剛?cè)胄忻刃拢?/p>

看看網(wǎng)上一些大佬老說無監(jiān)督學(xué)習(xí)應(yīng)用在風(fēng)控領(lǐng)域是一個方向,我也趕緊學(xué)習(xí)學(xué)習(xí),看看能不能趕上潮流前沿
以此輪詢~

而這類觀點之所以被認(rèn)可,無外乎因為
(1)懂業(yè)務(wù)不懂模型的風(fēng)控人:說的是啊,壞人都具有相同的特征,無監(jiān)督學(xué)習(xí)確實能夠把壞人聚類。

(2)懂模型不懂業(yè)務(wù)的風(fēng)控人:說的是啊,無監(jiān)督學(xué)習(xí)把不同的人進行分類,他們業(yè)務(wù)就能找到壞人啦。

這個邏輯就是雞生蛋還是蛋生雞的問題。

業(yè)內(nèi)有一家一直號稱做無監(jiān)督學(xué)習(xí)算法的風(fēng)控乙方,該家公司的創(chuàng)始人背景也很牛,一直在業(yè)內(nèi)號稱要用無監(jiān)督學(xué)習(xí)解決反欺詐難題。很多投資人會覺得這是一個新興的領(lǐng)域,公司領(lǐng)導(dǎo)也覺得這是非做不可的(有點像鉆石的營銷騙局)。在搜索引擎上用“無監(jiān)督學(xué)習(xí)”、“反欺詐”做關(guān)鍵詞,你會發(fā)現(xiàn),大部分的文章都是這家公司或者這家公司的員工發(fā)布出來的,標(biāo)題也很驚悚——無監(jiān)督學(xué)習(xí)改變反欺詐、無監(jiān)督學(xué)習(xí)反欺詐是主流等等。

整理一下目前網(wǎng)上所謂的“典型的無監(jiān)督學(xué)習(xí)做反欺詐”的流程:

(1)特征映射

(2)聚類算法

(3)分析、判斷欺詐屬性

簡單點說就是:

(1)找變量:幾百維甚至上千維變量,與有監(jiān)督學(xué)習(xí)一模一樣。

(2)聚類算法:按照變量用聚類算法聚成集群,分成很多組,有可能需提前降維。

(3)看看這個組是不是欺詐:怎么看?看看有多少黑名單,看看怎么關(guān)聯(lián)在一起的。

問題來了,在線上實際應(yīng)用的時候,你如何判斷這個組是不是欺詐?就因為組成員多就把這個組認(rèn)為是團伙么,我怕你會被業(yè)務(wù)噴死。現(xiàn)在最大的問題在于你把組分出來了,你如何給組定義?

為了認(rèn)定這個分出來的組是不是欺詐,那就要根據(jù)這個組的特征,比如里面有多少壞用戶啊、是通過何種方式聚集在一起的啊,然后訓(xùn)練一個模型判斷這個組是不是壞的?

等等,這不就是有監(jiān)督學(xué)習(xí)了?針對一個個(集群)組來進行有監(jiān)督學(xué)習(xí)?

針對集群的有監(jiān)督學(xué)習(xí),其實本質(zhì)上還是集群中個體的有監(jiān)督學(xué)習(xí),比如該用戶所用設(shè)備關(guān)聯(lián)幾個壞用戶,一個WiFi網(wǎng)絡(luò)下有多少用戶申請類似。所以這個所謂針對無監(jiān)督出來集群+對集群的有監(jiān)督學(xué)習(xí),本質(zhì)上還是個體指標(biāo)的有監(jiān)督學(xué)習(xí)。

這個直觀的例子就是:我要從上海到北京,本來坐京滬高鐵直達就行了。你說不行,要先飛到武漢,再從武漢高鐵到北京,excuse me?有錢任性么。
另外還有一個問題在于:這個分組是并不穩(wěn)定的,在不同的閾值和分組方法下,得到的分組結(jié)果天壤之別,這種不穩(wěn)定在實際生產(chǎn)環(huán)境中又如何使用?

引申上面的例子就是:我要從上海到北京,本來坐京滬高鐵直達就行了。你說不行,中間要轉(zhuǎn)一道,從哪轉(zhuǎn),不確定隨機的,這次是武漢,下次是重慶,在下次是廣州,excuse me?

三、實際效果又如何?

以上這個觀點,我從業(yè)內(nèi)某家甲方做了幾十萬樣本(包括原本規(guī)則已拒絕樣本+通過樣本)的無監(jiān)督學(xué)習(xí)測試報告反饋中摘取典型的幾個群組,看看號稱的無監(jiān)督學(xué)習(xí)到底識別結(jié)果到底是怎么樣的?

這應(yīng)該算是測試反饋比較有效的群組了,其他的聚集群組是不是敢在生產(chǎn)中實際應(yīng)用,群組里面的效果表現(xiàn)如何,很難保證。這樣的群組分類,本質(zhì)上就是一種有監(jiān)督,一種用實際結(jié)果來證明挑出來的這個群組是壞群組的不科學(xué)的驗證方法。

另外,這些規(guī)則策略應(yīng)該都是專家規(guī)則里面直接做的,為什么要多次一舉畫蛇添足繞這么大一圈,效果也沒好在哪里。

有些小伙伴會說,你看不是多識別出來了幾筆?

其實,大概率那是專家規(guī)則的閾值啊(比如閾值為3,所以通過了2個人),新樣本進件是有次序的,第一筆第二筆欺詐總是不容易被識別的。就算這個算法應(yīng)用到生產(chǎn)當(dāng)中,他也沒辦法在前兩筆就識別出來的,本質(zhì)上還是一樣的效果。

所謂的無監(jiān)督學(xué)習(xí),繞了一大圈回來,還是得依賴專家規(guī)則+有監(jiān)督學(xué)習(xí),多出來的那一步。這里想到2個不知道是否真假的故事:

(1)聯(lián)合利華引進了一條香皂包裝生產(chǎn)線,結(jié)果發(fā)現(xiàn)這條生產(chǎn)線有個缺陷:常常會有盒子里沒裝入香皂??偛荒馨芽蘸凶淤u給顧客啊,他們只得請了一個學(xué)自動化的博士后設(shè)計一個方案來分揀空的香皂盒。博士后拉起了一個十幾人的科研攻關(guān)小組,綜合采用了機械、微電子、自動化、X射線探測等技術(shù),花了幾十萬,成功解決了問題。每當(dāng)生產(chǎn)線上有空香皂盒通過,兩旁的探測器會檢測到,并且驅(qū)動一只機械手把空皂盒推走。

中國南方有個鄉(xiāng)鎮(zhèn)企業(yè)也買了同樣的生產(chǎn)線,老板發(fā)現(xiàn)這個問題后大為發(fā)火,找了個小工來說:“***給老子把這個搞定,不然你給老子爬走?!毙」ず芸煜氤隽宿k法:他花了90塊錢在生產(chǎn)線旁邊放了一臺大功率電風(fēng)扇猛吹,于是空皂盒都被吹走了。

(2)在太空中由于失重,無法使用圓珠筆或者自來水筆進行記錄,對此美國宇航局投入大量資金,開發(fā)了可以在失重條件下寫字的太空用自來水筆,而前蘇聯(lián)的宇航員則簡單地用鉛筆寫字解決了這個問題。

雖然故事可能是假的,但是話粗理不粗,為了營造一個噱頭,是不是資本推動的噱頭就不好說了,把本來能夠很簡單解決的事情包了一個無監(jiān)督的外衣,其實在反欺詐的實質(zhì)上沒有任何改變。

過去,我一直用有監(jiān)督的各類算法解決遇到的風(fēng)險問題,我也理解無監(jiān)督學(xué)習(xí)的實現(xiàn)機理。但是,我知道無監(jiān)督學(xué)習(xí)在反欺詐的業(yè)務(wù)落地層是極其困難的,能夠落地的所謂的無監(jiān)督學(xué)習(xí)本質(zhì)上都是有監(jiān)督學(xué)習(xí)。

四、總結(jié)

從研究生開始,就開始做企業(yè)財務(wù)風(fēng)險預(yù)警,所以對各類無監(jiān)督、有監(jiān)督的算法都會有比較深的涉及;過去幾年來,從研究生畢業(yè)一直做反欺詐相關(guān)的工作,從電商做到信貸,算是站在反欺詐業(yè)務(wù)的第一線,黑灰產(chǎn)對抗、風(fēng)控系統(tǒng)設(shè)計、策略體系設(shè)計等等。其實風(fēng)控的人一定要懂一點算法背后機理、也真正地做過業(yè)務(wù),才知道到底什么樣的算法是最有用的。

對于無監(jiān)督學(xué)習(xí)在反欺詐場景中的實際應(yīng)用場景的可行性,我是持懷疑偏負(fù)面的態(tài)度的,有沒有可能說是資本推動的噱頭或者騙局我不敢說(我在跟投資機構(gòu)的溝通中對這種方法表示了質(zhì)疑),但是至少目前我沒有看到任何有實質(zhì)性改觀的應(yīng)用場景。無監(jiān)督學(xué)習(xí)是一個門檻很低的學(xué)習(xí)方法,在其他領(lǐng)域已經(jīng)有非常廣泛的涉及了,但是在反欺詐領(lǐng)域,暫時沒有看到有意義和實際效果的應(yīng)用落地。

更進一步的,反欺詐本身也是對人性的考量,機器永遠(yuǎn)在人性這塊代替不了人。靠著一堆數(shù)據(jù)無來由的做聚類從反欺詐業(yè)務(wù)的底層來看就不怎么牢靠,連有監(jiān)督學(xué)習(xí)都需要認(rèn)真去考量人性,更何況無監(jiān)督學(xué)習(xí)呢?

此篇文章無意抹黑任何人或者任何企業(yè),純粹行業(yè)的技術(shù)探討。

 

作者:獨孤qiu敗,微信公眾號:互聯(lián)網(wǎng)風(fēng)控那些事兒(anti_fraud_share),互聯(lián)網(wǎng)行業(yè)風(fēng)控產(chǎn)品經(jīng)理,定期分享互聯(lián)網(wǎng)風(fēng)控相關(guān)業(yè)界動態(tài)、系統(tǒng)設(shè)計方案、模型算法。

本文由 @獨孤qiu敗 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于 CC0 協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
13671人已学习11篇文章
产品经理/运营/数据分析师,如果能够掌握一些常用的Excel的技巧,会对工作效率有所提高。本专题的文章分享了经常用到的Excel技巧。
专题
13876人已学习12篇文章
本专题的文章分享了用户运营实战经验。
专题
14548人已学习13篇文章
裂变是研究用户增长的重要一环。本专题的文章分享了如何做裂变活动。
专题
14667人已学习13篇文章
价格是竞争的重要手段,所以对于一个产品来说,产品定价是非常重要的。本专题的文章分享了如何给产品定价和产品定价的策略。
专题
19179人已学习13篇文章
客户服务在整个客户生命周期主线中是一项持续的互动行为。本专题的文章提供了做好客户服务设计和体验的思路。