jlzz大全高潮多水老师,91精品人妻一区二区三区蜜桃

_{<strike id="euwx4"></strike>}

搜索

APP

起點(diǎn)課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

開通會員

發(fā)布

注冊 | 登錄

風(fēng)控建模的常見誤區(qū)與一般建議

并步跳步交叉步

2023-01-17

0 評論 3993 瀏覽 7 收藏

有些時候，風(fēng)控建模的模型并不是越復(fù)雜越好，模型的審核也是很有必要的。除此之外，風(fēng)控建模還有哪些誤區(qū)呢？本文作者分享了風(fēng)控建模的一些常見誤區(qū)和建議，一起來看一下吧。

一、建模的標(biāo)簽不是固定的

一般情況下，風(fēng)控數(shù)據(jù)比賽的數(shù)據(jù)都有既定的好壞用戶樣本標(biāo)簽，在此基礎(chǔ)上可以直接著手特征工程與模型訓(xùn)練。而實(shí)務(wù)中，樣本標(biāo)簽是要權(quán)衡數(shù)據(jù)與業(yè)務(wù)兩個因素才能最終確定：

從數(shù)據(jù)角度來看，壞樣本個數(shù)要大于1000個以上（一般經(jīng)驗(yàn)）才能保證建模的學(xué)習(xí)性能；
從業(yè)務(wù)角度來看，壞樣本盡可能地取自真實(shí)的壞樣本，盡可能少地誤殺好用戶。

數(shù)據(jù)與業(yè)務(wù)兩者是相互拉扯的，想要獲得更多的壞樣本，就需要表現(xiàn)期足夠短，但好用戶被誤殺的可能也更大；要想少的好用戶被誤殺，就要求表現(xiàn)期足夠長，這樣最終能確定的壞樣本更少更精確。因此在確定標(biāo)簽時要多用數(shù)據(jù)嘗試，找到這兩個因素的平衡點(diǎn)。

二、模型并不是越復(fù)雜越好

有些剛?cè)腴T的朋友會覺得深度模型與集成模型效果一定比簡單的線性模型效果好。甚至在一些簡單項(xiàng)目上也要優(yōu)先嘗試復(fù)雜模型，但效果也許并不理想。就好比殺雞焉用牛刀。炫技不是目的，解決問題才是。

其實(shí)，在一些簡單的項(xiàng)目中，邏輯回歸就能很好的滿足性能要求，且健壯性極好；在簡單問題上使用復(fù)雜模型很容易造成overfitting，進(jìn)而降低模型的泛化能力。

三、模型的審核很有必要

許多機(jī)構(gòu)在模型開發(fā)上往往是一人獨(dú)立承擔(dān)一個（甚至多個）模型項(xiàng)目的開發(fā)工作，從數(shù)據(jù)準(zhǔn)備、特征工程、再到建模與調(diào)優(yōu)。雖然極大降低了人力成本，但也帶來問題，除了交付時間難以保證，更重要的是很容易發(fā)生模型集中度風(fēng)險。

在模型團(tuán)隊(duì)內(nèi)部或外部設(shè)立審核小組，從數(shù)據(jù)、代碼、業(yè)務(wù)應(yīng)用場景、建模流程等多方面對模型組開發(fā)的模型進(jìn)行全方位診斷，以此降低模型集中度風(fēng)險的發(fā)生。這種組織結(jié)構(gòu)早已在國外多家數(shù)據(jù)驅(qū)動型金融機(jī)構(gòu)踐行。

四、慎用AutoML

AutoML顧名思義就是自動化的機(jī)器學(xué)習(xí)，一直都是業(yè)內(nèi)熱門，最大特點(diǎn)是可以替代大部分AI訓(xùn)練師繁瑣重復(fù)的工作。大家都知道，模型的開發(fā)需要大量的人工干預(yù)，主要表現(xiàn)在特征構(gòu)建、特征演變、特征提取、模型選擇與參數(shù)調(diào)節(jié)等方面。AutoML視圖將這些與特征、模型、優(yōu)化、評價有關(guān)的重要步驟進(jìn)行自動化地學(xué)習(xí)，使得機(jī)器學(xué)習(xí)模型無需人工干預(yù)即可被應(yīng)用，以此大大降低模型開發(fā)的時間成本，應(yīng)用AutoML可以將全流程人工條件下為期2-4周的開發(fā)作業(yè)壓縮到最短半天。

一個完整的AutoML過程可以分成這么兩類：一類是將以上的三個步驟整合成一個完整的pipeline；另一類則是network architecture search，能夠自動地學(xué)習(xí)到最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)。在學(xué)習(xí)的過程中，對特征工程、模型選擇、算法選擇都進(jìn)行了一些優(yōu)化。

雖然AutoML有著大大降低模型開發(fā)時間成本、提升模型精度等多種優(yōu)勢，但在特征構(gòu)建與演變中，很容易脫離實(shí)際業(yè)務(wù)指導(dǎo)模型的意義，無法從特征上體現(xiàn)出與風(fēng)險目標(biāo)明顯的業(yè)務(wù)相關(guān)性。尤其是模型后段應(yīng)用類似邏輯回歸等線性算法時，對于模型穩(wěn)定性、效力下降時，模型問題溯源成為難點(diǎn)。

因此，對于AutoML的使用，更建議應(yīng)用在反欺詐、精準(zhǔn)營銷等不需要明示業(yè)務(wù)與模型的關(guān)聯(lián)場景上，對于風(fēng)控場景，可以在子模型的開發(fā)上多加應(yīng)用，或者AutoML+人工干預(yù)。完全實(shí)現(xiàn)風(fēng)險模型開發(fā)與上線自動化，還為時尚早。

五、特征選擇：僅僅區(qū)分度高還不夠

在做特征構(gòu)造和篩選的時候，往往大家都會把區(qū)分度好的特征都堆進(jìn)模型，這樣在測試集上的模型性能會非常的好看，但在挑選特征的時候，除了區(qū)分度之外，還有其他的因素也是不能忽略的：

1. 覆蓋度

如果特征的覆蓋度不夠高，就不能在眾多樣本上發(fā)揮作用，更不能提升模型的線上的整體性能。一般覆蓋度達(dá)到20%以上時，可以考慮使用。覆蓋度較低的特征需要分析其業(yè)務(wù)屬性，如果該特征的缺失值比較具有區(qū)分能力，比如涉訴信息，可以考慮將該特征作為黑/白名單使用，而沒有業(yè)務(wù)含義的極少客戶才有的特征數(shù)據(jù)，區(qū)分度不大，就沒有必要用。

2. 穩(wěn)定性

在信貸業(yè)務(wù)中，特征具有時間屬性，特征是否穩(wěn)定，對于模型效果來說影響重大。同一個特征在不同時間段內(nèi)的分布很可能不一致，我們需要篩選出相對穩(wěn)定的特征，這樣建出來的模型才會在時間上具有平穩(wěn)性。在特征分布隨時間的推移下相對穩(wěn)定的前提下，基于歷史學(xué)習(xí)到的統(tǒng)計(jì)信息才能在未來較長時間內(nèi)保持區(qū)分度。

3. 可解釋性

風(fēng)控的對象是人，我們要透過數(shù)據(jù)去理解人的行為，所以我們構(gòu)建的特征是需要人能夠理解其風(fēng)險情況的，我們經(jīng)常通過數(shù)據(jù)構(gòu)建并驗(yàn)證假設(shè)來建立模型。進(jìn)而可以得到一系列規(guī)則并應(yīng)用于業(yè)務(wù)中去（自頂向下的方法），其中可解釋性是整套方法的解釋，它銜接了規(guī)則和所產(chǎn)生的行為策略。

很多時候因果關(guān)系不那么明確，一個堅(jiān)實(shí)的模型就需要為決策提供可靠的解釋，幫助人們清晰的理解。如果一個特征的效果很好，但它在風(fēng)險上的表現(xiàn)和我們常識無法理解甚至完全違背，這樣的特征是很難去說服業(yè)務(wù)方采納的。

六、不是所有好的特征都要入模

這里主要強(qiáng)調(diào)的是特征與業(yè)務(wù)開展情況的關(guān)系。比如地理位置的信息的區(qū)分度非常好，但業(yè)務(wù)卻是按地區(qū)逐步推廣開展的，不同地區(qū)的運(yùn)營方式和產(chǎn)品有差異，那地理信息調(diào)整的靈活度很大，那么此時考慮放在策略中往往更合適；隨著業(yè)務(wù)的演進(jìn)，如果已經(jīng)覆蓋了許多地區(qū)，各個地區(qū)的統(tǒng)計(jì)信息具有穩(wěn)定的分布表現(xiàn)，此時模型中使用地理位置信息就變的很有用了。

作者：王小賓；微信公眾號：一起侃產(chǎn)品

本文由@并不跳步交叉步原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自 Unsplash，基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App