風控策略模型下集:模型這樣做
模型開發(fā)是為業(yè)務(wù)需求服務(wù)的,高效解決業(yè)務(wù)的難點和痛點,就是模型開發(fā)的護城河。本文對模型開發(fā)中的模型定位和目標、標簽定義、樣本選擇等方面進行了概述,一起來看一下吧。
模型開發(fā)是為業(yè)務(wù)需求服務(wù)的,高效解決業(yè)務(wù)的難點和痛點,就是模型開發(fā)的護城河。而不是所謂的算法。
業(yè)務(wù)有什么樣的需求,模型就要做針對性的設(shè)計。這是實際工作中最吃功夫的內(nèi)容。也是和那些建模比賽差異點最大的地方。
模型開發(fā)并不是一件容易的事情。所以更要確保各個環(huán)節(jié)合理有效,才能完成整個項目的交付。關(guān)鍵要點包括模型定位的合理性、數(shù)據(jù)質(zhì)量的可靠性、建模方法的適用性、模型輸出的準確性,以及模型表現(xiàn)的穩(wěn)定性。
模型開發(fā)周期可根據(jù)項目的需求及難度可以適當調(diào)整,開發(fā)期間通常需要安排至少 3 次里程碑會議。
- 立項會議:參會方應(yīng)包括模型開發(fā)方、模型使用方(需求發(fā)起方)、以及模型驗證方。主要闡述模型立項的背景和目標,同時明確模型開發(fā)方、使用方、驗證方、及部署方的職責與排期;
- 初步匯報:由模型開發(fā)方展示模型初步的數(shù)據(jù)分析結(jié)果和建模思路,并與各方確定模型框架;
- 模型評審:模型方匯報模型開發(fā)的過程和結(jié)果,驗證方給出驗證結(jié)果,各方對模型結(jié)果和模型應(yīng)用展開討論,確定最終版模型。
我們下面概述下模型開發(fā)中最為關(guān)鍵的內(nèi)容,包括模型定位和目標、標簽定義、樣本選擇、數(shù)據(jù)來源與處理、模型開發(fā)和模型評估。
一、模型定位和目標
為了量化處理業(yè)務(wù)中不同的實際問題,模型開發(fā)方需要與業(yè)務(wù)方溝通確定建模目標。
我們知道,信用風險模型主要是為了評估用戶還款能力和還款意愿;反欺詐反作弊模型防止用戶騙貸、薅羊毛和保證平臺安全等功能;資本計量模型主要適用于 Basel 體系確定最低資本要求和進行壓力測試。
但模型定位和目標的溝通不止于此。我們需要了解的更多,模型被用于哪些場景,模型的應(yīng)用客群是什么,有沒有需要重點針對的客群,預(yù)期效果怎么樣,什么時候要用等等。
目標是 KS 越高越好,還是 30 以上就行(這個 30 應(yīng)該是參考已有模型的一個經(jīng)驗值),對接下來的模型方案是完全不同的。
前者是尋求上限問題,要求你清楚地知悉現(xiàn)有體系的弱點,在合理的排期下做最優(yōu)決策。特征空間是不是跟不上業(yè)務(wù)的發(fā)展了,標簽定義是不是可以改進,業(yè)務(wù)上是不是在做新的客群,是不是需要分客群建模,能不能用外部的數(shù)據(jù)做實時模型,等等問題都需要回答。
后者是保證下限問題,實現(xiàn)起來容易地多,挑最重要的一兩個點進行優(yōu)化,往往就能解決。
二、標簽定義
標簽一般分為 GBIE,G 是 good 好用戶,B 是 bad 壞用戶,I 是 indeterminacy 不確定用戶,E 是 exclusion 排除用戶。
- 觀察期:用來加工用戶的特征,也就是說對觀察多久來統(tǒng)計建模;
- 觀察點:貸前是申請時點,貸中可以是任意時間點;
- 表現(xiàn)期:用來定義好壞樣本的時間區(qū)段,看用戶在這個時間窗口內(nèi)的逾期變現(xiàn)來加工標簽;
- 表現(xiàn)點:是表現(xiàn)期的末端。
我們從觀察點開始看用戶,這個時點不需要考慮的用戶就可以定義為 E 用戶,例如信用模型不考慮欺詐用戶。表現(xiàn)期內(nèi)風險良好的定義為 G,風險高的定義為 B,中間段還設(shè)有 I。
觀察期的長短視特征加工的時間范圍確定,表現(xiàn)期的長度需根據(jù) vintage 曲線定義。我們需要客戶的違約是比較穩(wěn)定的,這樣才能保證結(jié)果的準確性。B 逾期程度的定義需要計算滾動率。
工程上,這些定義會有很多明細要求。
三、樣本選擇
樣本選擇是最能體現(xiàn)模型開發(fā)定位和目標的,也是最吃功夫的部分。不同模型的開發(fā),其他的有跡可循,唯有樣本的選擇是各有各的不同。
1. 樣本選取原則
選取樣本時要考慮樣本的代表性,是否能夠有效地代表總體,必須包含可靠的預(yù)測信息和表現(xiàn)信息。通常來說在選擇樣本上需遵循三點原則:
- 代表性:樣本必須能夠代表總體,過去以及未來;
- 充分性:樣本量太大則需要業(yè)務(wù)積累時間較長,數(shù)據(jù)加工要求更高;太小,可能達不到統(tǒng)計的顯著性,置信度太低;
- 時效性:建模樣本需要與當前實際群體具有相似特征,如果由于外部環(huán)境或具體業(yè)務(wù)發(fā)生巨大變化,建模樣本可能不再具有時效性。
需要剔除的樣本,一般就是非模型應(yīng)用客群,這個被定義在 E 客群上了,自然就被建模排除在外了。
2. 抽樣原則
在樣本數(shù)據(jù)較大及運算能力有限的情況下,應(yīng)對總體樣本進行抽樣處理。
- 簡單隨機抽樣:在給定樣本規(guī)模之后從總體中完全隨機抽取,每個抽樣單元被抽中的概率相同;
- 分層抽樣:根據(jù)業(yè)務(wù)需求確定樣本的類別,確定針對每個類別的抽樣個數(shù),在每個類別內(nèi)隨機抽樣;
一般,業(yè)務(wù)簡單就隨機抽樣,業(yè)務(wù)復(fù)雜精細化程度高,就分層抽樣。
3. 樣本不平衡問題
好壞樣本的比例總是差別很大的,尤其是反欺詐這個場景里面。極端的不平衡可能會導致模型忽略小樣本的學習。
1)欠采樣
- 隨機欠采樣:對多數(shù)類樣本(一般是 G)隨機抽一個比例。
- 有選擇的欠采樣:通過一定規(guī)則有選擇的去掉對分類作用不大,即遠離分類邊界或引起數(shù)據(jù)重疊的多數(shù)樣本。
2)過采樣
- 簡單復(fù)制法:對少數(shù)類樣本(一般是 B)復(fù)制個倍數(shù)。
- 人工合成數(shù)據(jù):借用已有樣本,組合構(gòu)造一些數(shù)據(jù)。
在通過欠采樣或者過采樣后,樣本的比例發(fā)生了變化,因此需要在入模時通過權(quán)重調(diào)整法將比例調(diào)回來。如果只在乎排序性,這個也可以不考慮。
4. 分群
林子大了什么鳥都有。不同的人差別可能很大,一個模型不能有效地適用于所有客群。有時間需要用不同的特征來對不同的人群進行預(yù)測,即構(gòu)建多個模型運用在各個子客群上。
分群也可以分為基于經(jīng)驗的分群和基于數(shù)據(jù)的分群。
基于經(jīng)驗的分群,主要是利用從業(yè)務(wù)知識中了解到的客群差異分群,如不同的營銷渠道上風險差異較大,新的子產(chǎn)品上線了,業(yè)務(wù)更下沉了等等。
也可以通過聚類、決策樹對數(shù)據(jù)進行分群,但因為我們本身建模都用集成樹模型,分群本身就是樹模型訓練時干的事情。做任何額外的工作,都要考慮下必要性。
四、數(shù)據(jù)來源與處理
數(shù)據(jù)一般分為內(nèi)部數(shù)據(jù)與外部數(shù)據(jù)。內(nèi)部數(shù)據(jù),是公司內(nèi)部搜集存儲的客戶信息,例如商戶在平臺的銷售、貸款、運營信息,客戶的登陸、注冊、消費信息等;外部數(shù)據(jù)一般為第三方數(shù)據(jù),例如人行征信報告、運營商數(shù)據(jù)、第三方機構(gòu)提供的多頭借貸數(shù)據(jù)等。
模型開發(fā)文檔中需明確列出所用到的數(shù)據(jù)來源和特征列表,并且需要多方確認數(shù)據(jù)可用,包括持續(xù)穩(wěn)定和監(jiān)管許可等。
同時,模型開發(fā)還需要考慮對缺失值處理和異常值處理。
1. 缺失值處理
直接刪除含有缺失值的樣本,缺失值較少,這是比較合適的,但當缺失值樣本比例較大時,就會產(chǎn)生較大損失。
根據(jù)樣本之間的相似性填補缺失值是更技術(shù)的方法。但是工程上更常用的方法是根據(jù)經(jīng)驗進行默認值填充,例如-1 或者 0 等。
不處理也是一種處理,而且也許是最好的處理。尤其是風險模型都在用 XGB,它可以自動學習缺失的最優(yōu)劃分。
2. 異常值處理
異常值是指明顯偏離大多數(shù)數(shù)據(jù)分布的數(shù)值??梢圆捎秒x群值檢測的方法來找出樣本總體中的異常值。
有單變量離群值檢測、局部離群值因子檢測、基于聚類方法的離群值檢測等等。
同樣的,如果是樹模型預(yù)測分類問題,異常值處理并沒有太大必要。
3. 變量篩選
變量分為數(shù)值型變量和類別型變量。兩者篩選不太一樣。
數(shù)值型變量篩選可以用特征穩(wěn)定系指數(shù)(Characteristic Stability Index)、信息價值(Information Value)、模型重要性排序(Feature Importance)等多方面考量,對于使用證據(jù)權(quán)重(Weight of Evidence, WOE)轉(zhuǎn)換的模型,需保證根據(jù)變量分組后的樣本分布符合業(yè)務(wù)邏輯。
對于類別型變量指標,應(yīng)選擇樣本分布符合業(yè)務(wù)邏輯的變量,并考慮各類別取值的分布是否充足且較為均衡,避免因少數(shù)異常值傷害類別的代表性。
五、建模方法
應(yīng)根據(jù)業(yè)務(wù)需要、建模目標和數(shù)據(jù)特點選擇最合適的建模方法。
1. 傳統(tǒng)統(tǒng)計模型
主要包括線性回歸模型,非線性回歸模型,廣義線性回歸模型,邏輯回歸模型和時間序列模型。
線性回歸、非線性回歸或廣義線性回歸,用于擬合數(shù)值型因變量與自變量的函數(shù)關(guān)系,函數(shù)類型需根據(jù)實際情況進行嘗試與選擇。
邏輯回歸模型用來處理因變量為分類變量的問題,通常用于二分類或二項分布問題,也可以通過累積邏輯回歸(Cumulative Logistic Regression)處理多分類問題。
時間序列模型,用于根據(jù)已有歷史數(shù)據(jù)對未來進行預(yù)測,可根據(jù)實際數(shù)據(jù)情況,選擇回歸差分移動平均模型 (ARIMA),向量自回歸模型(VAR)或廣義自回歸條件異方差模型 (GARCH)等。
2. 機器學習模型
機器學習類模型大體分為 3 類:監(jiān)督學習、無監(jiān)督學習和強化學習。
監(jiān)督學習有標簽去計算預(yù)測正確與否;無監(jiān)督學習則沒有,算法僅嘗試根據(jù)數(shù)據(jù)的隱含結(jié)構(gòu)進行分類;強化學習會接收反饋,但反饋并非對每個輸入或狀態(tài)都是必要的。
風控模型中最常用的是集成樹模型。相比于邏輯回歸的線性分割,決策樹類模型可以尋求非線性分割,以實現(xiàn)最優(yōu)的樣本空間分割。
在建模過程中,需要有訓練集、測試集和驗證集。模型訓練是基于測試集上的效果去迭代模型訓練過程。訓練完成后要在驗證集(最新的時間窗口內(nèi))上計算各種指標,例如回歸模型中的 R-square 等,分類模型中的 AUC,AR,KS,GINI 系數(shù)等。
六、模型評估
模型上線后怎么用,就應(yīng)該怎么評估。
如果要拓展下層客群的授信,就要把下層客群單拎出來計算,而不是混在全體樣本里充數(shù)。
如果要和已有模型交叉使用,就需要評估交叉效果。
如果數(shù)據(jù)源可能會缺失,就應(yīng)該評估缺失后的效果,若可接受,則后期數(shù)據(jù)源發(fā)生缺失時,調(diào)整下閾值接著用,而不是下線不用。
等等。
模型開發(fā)時我們總在關(guān)心模型效果,但當模型開發(fā)完后,最重要的是穩(wěn)定性。沒有策略會盯著模型分的變動反復(fù)調(diào)整閾值的。有問題的變量千萬不要用。
無法詳盡。
為我投票
我在參加人人都是產(chǎn)品經(jīng)理2022年度作者評選,希望喜歡我的文章的朋友都能來支持我一下~
點擊下方鏈接進入我的個人參選頁面,點擊紅心即可為我投票。
每人每天最多可投35票,投票即可獲得抽獎機會,抽取書籍、人人都是產(chǎn)品經(jīng)理紀念周邊和起點課堂會員等好禮哦!
投票傳送門:https://996.pm/7mXqv
專欄作家
雷帥,微信公眾號:雷帥快與慢,人人都是產(chǎn)品經(jīng)理專欄作家。風控算法工程師,懂點風控、懂點業(yè)務(wù)、懂點人生。始終相信經(jīng)驗讓工作更簡單,繼而發(fā)現(xiàn)風控讓人生更自由。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
”在通過欠采樣或者過采樣后,樣本的比例發(fā)生了變化,因此需要在入模時通過權(quán)重調(diào)整法將比例調(diào)回來”,權(quán)重調(diào)整法具體怎么操作的?