无码一区二区三区在线在看,久章草在线无码视频观看

搜索

APP

起點(diǎn)課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

開通會員

發(fā)布

注冊 | 登錄

風(fēng)控策略模型下集：模型這樣做

雷帥

2022-12-13

1 評論 8214 瀏覽 40 收藏

大厂导师团亲自授课，超过200小时的精品课程，从0到1为你构建“产品+业务”的复合型知识体系，让你在职场竞争中脱颖而出。

模型開發(fā)是為業(yè)務(wù)需求服務(wù)的，高效解決業(yè)務(wù)的難點(diǎn)和痛點(diǎn)，就是模型開發(fā)的護(hù)城河。本文對模型開發(fā)中的模型定位和目標(biāo)、標(biāo)簽定義、樣本選擇等方面進(jìn)行了概述，一起來看一下吧。

模型開發(fā)是為業(yè)務(wù)需求服務(wù)的，高效解決業(yè)務(wù)的難點(diǎn)和痛點(diǎn)，就是模型開發(fā)的護(hù)城河。而不是所謂的算法。

業(yè)務(wù)有什么樣的需求，模型就要做針對性的設(shè)計。這是實(shí)際工作中最吃功夫的內(nèi)容。也是和那些建模比賽差異點(diǎn)最大的地方。

模型開發(fā)并不是一件容易的事情。所以更要確保各個環(huán)節(jié)合理有效，才能完成整個項目的交付。關(guān)鍵要點(diǎn)包括模型定位的合理性、數(shù)據(jù)質(zhì)量的可靠性、建模方法的適用性、模型輸出的準(zhǔn)確性，以及模型表現(xiàn)的穩(wěn)定性。

模型開發(fā)周期可根據(jù)項目的需求及難度可以適當(dāng)調(diào)整，開發(fā)期間通常需要安排至少 3 次里程碑會議。

立項會議：參會方應(yīng)包括模型開發(fā)方、模型使用方(需求發(fā)起方)、以及模型驗(yàn)證方。主要闡述模型立項的背景和目標(biāo)，同時明確模型開發(fā)方、使用方、驗(yàn)證方、及部署方的職責(zé)與排期；
初步匯報：由模型開發(fā)方展示模型初步的數(shù)據(jù)分析結(jié)果和建模思路，并與各方確定模型框架；
模型評審：模型方匯報模型開發(fā)的過程和結(jié)果，驗(yàn)證方給出驗(yàn)證結(jié)果，各方對模型結(jié)果和模型應(yīng)用展開討論，確定最終版模型。

我們下面概述下模型開發(fā)中最為關(guān)鍵的內(nèi)容，包括模型定位和目標(biāo)、標(biāo)簽定義、樣本選擇、數(shù)據(jù)來源與處理、模型開發(fā)和模型評估。

一、模型定位和目標(biāo)

為了量化處理業(yè)務(wù)中不同的實(shí)際問題，模型開發(fā)方需要與業(yè)務(wù)方溝通確定建模目標(biāo)。

我們知道，信用風(fēng)險模型主要是為了評估用戶還款能力和還款意愿；反欺詐反作弊模型防止用戶騙貸、薅羊毛和保證平臺安全等功能；資本計量模型主要適用于 Basel 體系確定最低資本要求和進(jìn)行壓力測試。

但模型定位和目標(biāo)的溝通不止于此。我們需要了解的更多，模型被用于哪些場景，模型的應(yīng)用客群是什么，有沒有需要重點(diǎn)針對的客群，預(yù)期效果怎么樣，什么時候要用等等。

目標(biāo)是 KS 越高越好，還是 30 以上就行（這個 30 應(yīng)該是參考已有模型的一個經(jīng)驗(yàn)值），對接下來的模型方案是完全不同的。

前者是尋求上限問題，要求你清楚地知悉現(xiàn)有體系的弱點(diǎn)，在合理的排期下做最優(yōu)決策。特征空間是不是跟不上業(yè)務(wù)的發(fā)展了，標(biāo)簽定義是不是可以改進(jìn)，業(yè)務(wù)上是不是在做新的客群，是不是需要分客群建模，能不能用外部的數(shù)據(jù)做實(shí)時模型，等等問題都需要回答。

后者是保證下限問題，實(shí)現(xiàn)起來容易地多，挑最重要的一兩個點(diǎn)進(jìn)行優(yōu)化，往往就能解決。

二、標(biāo)簽定義

標(biāo)簽一般分為 GBIE，G 是 good 好用戶，B 是 bad 壞用戶，I 是 indeterminacy 不確定用戶，E 是 exclusion 排除用戶。

觀察期：用來加工用戶的特征，也就是說對觀察多久來統(tǒng)計建模；
觀察點(diǎn)：貸前是申請時點(diǎn)，貸中可以是任意時間點(diǎn)；
表現(xiàn)期：用來定義好壞樣本的時間區(qū)段，看用戶在這個時間窗口內(nèi)的逾期變現(xiàn)來加工標(biāo)簽；
表現(xiàn)點(diǎn)：是表現(xiàn)期的末端。

我們從觀察點(diǎn)開始看用戶，這個時點(diǎn)不需要考慮的用戶就可以定義為 E 用戶，例如信用模型不考慮欺詐用戶。表現(xiàn)期內(nèi)風(fēng)險良好的定義為 G，風(fēng)險高的定義為 B，中間段還設(shè)有 I。

觀察期的長短視特征加工的時間范圍確定，表現(xiàn)期的長度需根據(jù) vintage 曲線定義。我們需要客戶的違約是比較穩(wěn)定的，這樣才能保證結(jié)果的準(zhǔn)確性。B 逾期程度的定義需要計算滾動率。

工程上，這些定義會有很多明細(xì)要求。

三、樣本選擇

樣本選擇是最能體現(xiàn)模型開發(fā)定位和目標(biāo)的，也是最吃功夫的部分。不同模型的開發(fā)，其他的有跡可循，唯有樣本的選擇是各有各的不同。

1. 樣本選取原則

選取樣本時要考慮樣本的代表性，是否能夠有效地代表總體，必須包含可靠的預(yù)測信息和表現(xiàn)信息。通常來說在選擇樣本上需遵循三點(diǎn)原則：

代表性：樣本必須能夠代表總體，過去以及未來；
充分性：樣本量太大則需要業(yè)務(wù)積累時間較長，數(shù)據(jù)加工要求更高；太小，可能達(dá)不到統(tǒng)計的顯著性，置信度太低；
時效性：建模樣本需要與當(dāng)前實(shí)際群體具有相似特征，如果由于外部環(huán)境或具體業(yè)務(wù)發(fā)生巨大變化，建模樣本可能不再具有時效性。

需要剔除的樣本，一般就是非模型應(yīng)用客群，這個被定義在 E 客群上了，自然就被建模排除在外了。

2. 抽樣原則

在樣本數(shù)據(jù)較大及運(yùn)算能力有限的情況下，應(yīng)對總體樣本進(jìn)行抽樣處理。

簡單隨機(jī)抽樣：在給定樣本規(guī)模之后從總體中完全隨機(jī)抽取，每個抽樣單元被抽中的概率相同；
分層抽樣：根據(jù)業(yè)務(wù)需求確定樣本的類別，確定針對每個類別的抽樣個數(shù)，在每個類別內(nèi)隨機(jī)抽樣；

一般，業(yè)務(wù)簡單就隨機(jī)抽樣，業(yè)務(wù)復(fù)雜精細(xì)化程度高，就分層抽樣。

3. 樣本不平衡問題

好壞樣本的比例總是差別很大的，尤其是反欺詐這個場景里面。極端的不平衡可能會導(dǎo)致模型忽略小樣本的學(xué)習(xí)。

1）欠采樣

隨機(jī)欠采樣：對多數(shù)類樣本（一般是 G）隨機(jī)抽一個比例。
有選擇的欠采樣：通過一定規(guī)則有選擇的去掉對分類作用不大，即遠(yuǎn)離分類邊界或引起數(shù)據(jù)重疊的多數(shù)樣本。

2）過采樣

簡單復(fù)制法：對少數(shù)類樣本（一般是 B）復(fù)制個倍數(shù)。
人工合成數(shù)據(jù)：借用已有樣本，組合構(gòu)造一些數(shù)據(jù)。

在通過欠采樣或者過采樣后，樣本的比例發(fā)生了變化，因此需要在入模時通過權(quán)重調(diào)整法將比例調(diào)回來。如果只在乎排序性，這個也可以不考慮。

4. 分群

林子大了什么鳥都有。不同的人差別可能很大，一個模型不能有效地適用于所有客群。有時間需要用不同的特征來對不同的人群進(jìn)行預(yù)測，即構(gòu)建多個模型運(yùn)用在各個子客群上。

分群也可以分為基于經(jīng)驗(yàn)的分群和基于數(shù)據(jù)的分群。

基于經(jīng)驗(yàn)的分群，主要是利用從業(yè)務(wù)知識中了解到的客群差異分群，如不同的營銷渠道上風(fēng)險差異較大，新的子產(chǎn)品上線了，業(yè)務(wù)更下沉了等等。

也可以通過聚類、決策樹對數(shù)據(jù)進(jìn)行分群，但因?yàn)槲覀儽旧斫６加眉蓸淠Ｐ?，分群本身就是樹模型?xùn)練時干的事情。做任何額外的工作，都要考慮下必要性。

四、數(shù)據(jù)來源與處理

數(shù)據(jù)一般分為內(nèi)部數(shù)據(jù)與外部數(shù)據(jù)。內(nèi)部數(shù)據(jù)，是公司內(nèi)部搜集存儲的客戶信息，例如商戶在平臺的銷售、貸款、運(yùn)營信息，客戶的登陸、注冊、消費(fèi)信息等；外部數(shù)據(jù)一般為第三方數(shù)據(jù)，例如人行征信報告、運(yùn)營商數(shù)據(jù)、第三方機(jī)構(gòu)提供的多頭借貸數(shù)據(jù)等。

模型開發(fā)文檔中需明確列出所用到的數(shù)據(jù)來源和特征列表，并且需要多方確認(rèn)數(shù)據(jù)可用，包括持續(xù)穩(wěn)定和監(jiān)管許可等。

同時，模型開發(fā)還需要考慮對缺失值處理和異常值處理。

1. 缺失值處理

直接刪除含有缺失值的樣本，缺失值較少，這是比較合適的，但當(dāng)缺失值樣本比例較大時，就會產(chǎn)生較大損失。

根據(jù)樣本之間的相似性填補(bǔ)缺失值是更技術(shù)的方法。但是工程上更常用的方法是根據(jù)經(jīng)驗(yàn)進(jìn)行默認(rèn)值填充，例如-1 或者 0 等。

不處理也是一種處理，而且也許是最好的處理。尤其是風(fēng)險模型都在用 XGB，它可以自動學(xué)習(xí)缺失的最優(yōu)劃分。

2. 異常值處理

異常值是指明顯偏離大多數(shù)數(shù)據(jù)分布的數(shù)值?？梢圆捎秒x群值檢測的方法來找出樣本總體中的異常值。

有單變量離群值檢測、局部離群值因子檢測、基于聚類方法的離群值檢測等等。

同樣的，如果是樹模型預(yù)測分類問題，異常值處理并沒有太大必要。

3. 變量篩選

變量分為數(shù)值型變量和類別型變量。兩者篩選不太一樣。

數(shù)值型變量篩選可以用特征穩(wěn)定系指數(shù)（Characteristic Stability Index）、信息價值（Information Value）、模型重要性排序（Feature Importance）等多方面考量，對于使用證據(jù)權(quán)重（Weight of Evidence, WOE）轉(zhuǎn)換的模型，需保證根據(jù)變量分組后的樣本分布符合業(yè)務(wù)邏輯。

對于類別型變量指標(biāo)，應(yīng)選擇樣本分布符合業(yè)務(wù)邏輯的變量，并考慮各類別取值的分布是否充足且較為均衡，避免因少數(shù)異常值傷害類別的代表性。

五、建模方法

應(yīng)根據(jù)業(yè)務(wù)需要、建模目標(biāo)和數(shù)據(jù)特點(diǎn)選擇最合適的建模方法。

1. 傳統(tǒng)統(tǒng)計模型

主要包括線性回歸模型，非線性回歸模型，廣義線性回歸模型，邏輯回歸模型和時間序列模型。

線性回歸、非線性回歸或廣義線性回歸，用于擬合數(shù)值型因變量與自變量的函數(shù)關(guān)系，函數(shù)類型需根據(jù)實(shí)際情況進(jìn)行嘗試與選擇。

邏輯回歸模型用來處理因變量為分類變量的問題，通常用于二分類或二項分布問題，也可以通過累積邏輯回歸（Cumulative Logistic Regression）處理多分類問題。

時間序列模型，用于根據(jù)已有歷史數(shù)據(jù)對未來進(jìn)行預(yù)測，可根據(jù)實(shí)際數(shù)據(jù)情況，選擇回歸差分移動平均模型（ARIMA），向量自回歸模型（VAR）或廣義自回歸條件異方差模型 (GARCH）等。

2. 機(jī)器學(xué)習(xí)模型

機(jī)器學(xué)習(xí)類模型大體分為 3 類：監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。

監(jiān)督學(xué)習(xí)有標(biāo)簽去計算預(yù)測正確與否；無監(jiān)督學(xué)習(xí)則沒有，算法僅嘗試根據(jù)數(shù)據(jù)的隱含結(jié)構(gòu)進(jìn)行分類；強(qiáng)化學(xué)習(xí)會接收反饋，但反饋并非對每個輸入或狀態(tài)都是必要的。

風(fēng)控模型中最常用的是集成樹模型。相比于邏輯回歸的線性分割，決策樹類模型可以尋求非線性分割，以實(shí)現(xiàn)最優(yōu)的樣本空間分割。

在建模過程中，需要有訓(xùn)練集、測試集和驗(yàn)證集。模型訓(xùn)練是基于測試集上的效果去迭代模型訓(xùn)練過程。訓(xùn)練完成后要在驗(yàn)證集（最新的時間窗口內(nèi)）上計算各種指標(biāo)，例如回歸模型中的 R-square 等，分類模型中的 AUC，AR，KS，GINI 系數(shù)等。

六、模型評估

模型上線后怎么用，就應(yīng)該怎么評估。

如果要拓展下層客群的授信，就要把下層客群單拎出來計算，而不是混在全體樣本里充數(shù)。

如果要和已有模型交叉使用，就需要評估交叉效果。

如果數(shù)據(jù)源可能會缺失，就應(yīng)該評估缺失后的效果，若可接受，則后期數(shù)據(jù)源發(fā)生缺失時，調(diào)整下閾值接著用，而不是下線不用。

等等。

模型開發(fā)時我們總在關(guān)心模型效果，但當(dāng)模型開發(fā)完后，最重要的是穩(wěn)定性。沒有策略會盯著模型分的變動反復(fù)調(diào)整閾值的。有問題的變量千萬不要用。

無法詳盡。

為我投票

我在參加人人都是產(chǎn)品經(jīng)理2022年度作者評選，希望喜歡我的文章的朋友都能來支持我一下~

點(diǎn)擊下方鏈接進(jìn)入我的個人參選頁面，點(diǎn)擊紅心即可為我投票。

每人每天最多可投35票，投票即可獲得抽獎機(jī)會，抽取書籍、人人都是產(chǎn)品經(jīng)理紀(jì)念周邊和起點(diǎn)課堂會員等好禮哦！

投票傳送門：https://996.pm/7mXqv

專欄作家

雷帥，微信公眾號：雷帥快與慢，人人都是產(chǎn)品經(jīng)理專欄作家。風(fēng)控算法工程師，懂點(diǎn)風(fēng)控、懂點(diǎn)業(yè)務(wù)、懂點(diǎn)人生。始終相信經(jīng)驗(yàn)讓工作更簡單，繼而發(fā)現(xiàn)風(fēng)控讓人生更自由。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自 Unsplash，基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App