風(fēng)控建模的常見誤區(qū)與一般建議
有些時候,風(fēng)控建模的模型并不是越復(fù)雜越好,模型的審核也是很有必要的。除此之外,風(fēng)控建模還有哪些誤區(qū)呢?本文作者分享了風(fēng)控建模的一些常見誤區(qū)和建議,一起來看一下吧。
一、建模的標簽不是固定的
一般情況下,風(fēng)控數(shù)據(jù)比賽的數(shù)據(jù)都有既定的好壞用戶樣本標簽,在此基礎(chǔ)上可以直接著手特征工程與模型訓(xùn)練。而實務(wù)中,樣本標簽是要權(quán)衡數(shù)據(jù)與業(yè)務(wù)兩個因素才能最終確定:
- 從數(shù)據(jù)角度來看,壞樣本個數(shù)要大于1000個以上(一般經(jīng)驗)才能保證建模的學(xué)習(xí)性能;
- 從業(yè)務(wù)角度來看,壞樣本盡可 能地取自真實的壞樣本,盡可能少地誤殺好用戶。
數(shù)據(jù)與業(yè)務(wù)兩者是相互拉扯的,想要獲得更多的壞樣本,就需要表現(xiàn)期足夠短,但好用戶被誤殺的可能也更大;要想少的好用戶被誤殺,就要求表現(xiàn)期足夠長,這樣最終能確定的壞樣本更少更精確。因此在確定標簽時要多用數(shù)據(jù)嘗試,找到這兩個因素的平衡點。
二、模型并不是越復(fù)雜越好
有些剛?cè)腴T的朋友會覺得深度模型與集成模型效果一定比簡單的線性模型效果好。甚至在一些簡單項目上也要優(yōu)先嘗試復(fù)雜模型,但效果也許并不理想。就好比殺雞焉用牛刀。炫技不是目的,解決問題才是。
其實,在一些簡單的項目中,邏輯回歸就能很好的滿足性能要求,且健壯性極好;在簡單問題上使用復(fù)雜模型很容易造成overfitting,進而降低模型的泛化能力。
三、模型的審核很有必要
許多機構(gòu)在模型開發(fā)上往往是一人獨立承擔一個(甚至多個)模型項目的開發(fā)工作,從數(shù)據(jù)準備、特征工程、再到建模與調(diào)優(yōu)。雖然極大降低了人力成本,但也帶來問題,除了交付時間難以保證,更重要的是很容易發(fā)生模型集中度風(fēng)險。
在模型團隊內(nèi)部或外部設(shè)立審核小組,從數(shù)據(jù)、代碼、業(yè)務(wù)應(yīng)用場景、建模流程等多方面對模型組開發(fā)的模型進行全方位診斷,以此降低模型集中度風(fēng)險的發(fā)生。這種組織結(jié)構(gòu)早已在國外多家數(shù)據(jù)驅(qū)動型金融機構(gòu)踐行。
四、慎用AutoML
AutoML顧名思義就是自動化的機器學(xué)習(xí),一直都是業(yè)內(nèi)熱門,最大特點是可以替代大部分AI訓(xùn)練師繁瑣重復(fù)的工作。大家都知道,模型的開發(fā)需要大量的人工干預(yù),主要表現(xiàn)在特征構(gòu)建、特征演變、特征提取、模型選擇與參數(shù)調(diào)節(jié)等方面。AutoML視圖將這些與特征、模型、優(yōu)化、評價有關(guān)的重要步驟進行自動化地學(xué)習(xí),使得機器學(xué)習(xí)模型無需人工干預(yù)即可被應(yīng)用,以此大大降低模型開發(fā)的時間成本,應(yīng)用AutoML可以將全流程人工條件下為期2-4周的開發(fā)作業(yè)壓縮到最短半天。
一個完整的AutoML過程可以分成這么兩類:一類是將以上的三個步驟整合成一個完整的pipeline;另一類則是network architecture search,能夠自動地學(xué)習(xí)到最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)。在學(xué)習(xí)的過程中,對特征工程、模型選擇、算法選擇都進行了一些優(yōu)化。
雖然AutoML有著大大降低模型開發(fā)時間成本、提升模型精度等多種優(yōu)勢,但在特征構(gòu)建與演變中,很容易脫離實際業(yè)務(wù)指導(dǎo)模型的意義,無法從特征上體現(xiàn)出與風(fēng)險目標明顯的業(yè)務(wù)相關(guān)性。尤其是模型后段應(yīng)用類似邏輯回歸等線性算法時,對于模型穩(wěn)定性、效力下降時,模型問題溯源成為難點。
因此,對于AutoML的使用,更建議應(yīng)用在反欺詐、精準營銷等不需要明示業(yè)務(wù)與模型的關(guān)聯(lián)場景上,對于風(fēng)控場景,可以在子模型的開發(fā)上多加應(yīng)用,或者AutoML+人工干預(yù)。完全實現(xiàn)風(fēng)險模型開發(fā)與上線自動化,還為時尚早。
五、特征選擇:僅僅區(qū)分度高還不夠
在做特征構(gòu)造和篩選的時候,往往大家都會把區(qū)分度好的特征都堆進模型,這樣在測試集上的模型性能會非常的好看,但在挑選特征的時候,除了區(qū)分度之外,還有其他的因素也是不能忽略的:
1. 覆蓋度
如果特征的覆蓋度不夠高,就不能在眾多樣本上發(fā)揮作用,更不能提升模型的線上的整體性能。一般覆蓋度達到20%以上時,可以考慮使用。覆蓋度較低的特征需要分析其業(yè)務(wù)屬性,如果該特征的缺失值比較具有區(qū)分能力,比如涉訴信息,可以考慮將該特征作為黑/白名單使用,而沒有業(yè)務(wù)含義的極少客戶才有的特征數(shù)據(jù),區(qū)分度不大,就沒有必要用。
2. 穩(wěn)定性
在信貸業(yè)務(wù)中,特征具有時間屬性,特征是否穩(wěn)定,對于模型效果來說影響重大。同一個特征在不同時間段內(nèi)的分布很可能不一致,我們需要篩選出相對穩(wěn)定的特征,這樣建出來的模型才會在時間上具有平穩(wěn)性。在特征分布隨時間的推移下相對穩(wěn)定的前提下,基于歷史學(xué)習(xí)到的統(tǒng)計信息才能在未來較長時間內(nèi)保持區(qū)分度。
3. 可解釋性
風(fēng)控的對象是人,我們要透過數(shù)據(jù)去理解人的行為,所以我們構(gòu)建的特征是需要人能夠理解其風(fēng)險情況的,我們經(jīng)常通過數(shù)據(jù)構(gòu)建并驗證假設(shè)來建立模型。進而可以得到一系列規(guī)則并應(yīng)用于業(yè)務(wù)中去(自頂向下的方法),其中可解釋性是整套方法的解釋,它銜接了規(guī)則和所產(chǎn)生的行為策略。
很多時候因果關(guān)系不那么明確,一個堅實的模型就需要為決策提供可靠的解釋,幫助人們清晰的理解。如果一個特征的效果很好,但它在風(fēng)險上的表現(xiàn)和我們常識無法理解甚至完全違背,這樣的特征是很難去說服業(yè)務(wù)方采納的。
六、不是所有好的特征都要入模
這里主要強調(diào)的是特征與業(yè)務(wù)開展情況的關(guān)系。比如地理位置的信息的區(qū)分度非常好,但業(yè)務(wù)卻是按地區(qū)逐步推廣開展的,不同地區(qū)的運營方式和產(chǎn)品有差異,那地理信息調(diào)整的靈活度很大,那么此時考慮放在策略中往往更合適;隨著業(yè)務(wù)的演進,如果已經(jīng)覆蓋了許多地區(qū),各個地區(qū)的統(tǒng)計信息具有穩(wěn)定的分布表現(xiàn),此時模型中使用地理位置信息就變的很有用了。
作者:王小賓;微信公眾號:一起侃產(chǎn)品
本文由@并不跳步交叉步 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!