揭秘:芝麻信用是怎么做的

9 評論 8535 瀏覽 37 收藏 16 分鐘

編輯導(dǎo)語:?在支付產(chǎn)品中,你或許看到過這樣一個產(chǎn)品——芝麻信用,它是衡量我們的信用程度的一大指標(biāo)。那么,為什么要做這樣一款產(chǎn)品以及它是如何評估我們的信用的。本文對芝麻信用進(jìn)行了詳細(xì)的介紹,一起來看看芝麻信用是怎么做的吧。

上周五在電腦里翻到一個文檔,是芝麻信用的產(chǎn)品介紹。我不知道是從哪來的,也無法輕易搜到同一份文檔。但既然是產(chǎn)品介紹,就權(quán)當(dāng)這是公開文件,作為一個外行,聊聊。

我顯然沒做過芝麻信用分,甚至我都沒有調(diào)研過,但我是做過同類產(chǎn)品的。這樣一款信用產(chǎn)品,與那些消金信貸公司的A卡B卡是有很多不同的。這個行業(yè)里多了很多懂?dāng)?shù)據(jù)懂算法的人,但沒幾個懂信用懂風(fēng)控的人。因而,我覺得這份不同,還是值得小書一下。

主要是揭秘下芝麻信用分是怎么做的,說是揭秘,但因為我并不是幕后操盤手,更準(zhǔn)確的說法是推測,也可能只是臆斷。

另外,花唄接入央行征信系統(tǒng),我們這些消費者在使用這類產(chǎn)品時要不要另作考慮,也會說一說。

關(guān)于芝麻分,官網(wǎng)有一段介紹如下:

芝麻分是由獨立第三方信用評估機構(gòu)-芝麻信用管理有限公司,在用戶授權(quán)的情況下,依據(jù)用戶在互聯(lián)網(wǎng)上的各類消費及行為數(shù)據(jù),結(jié)合互聯(lián)網(wǎng)金融借貸信息,運用云計算及機器學(xué)習(xí)等技術(shù),通過邏輯回歸、決策樹、隨機森林等模型算法,對各維度數(shù)據(jù)進(jìn)行綜合處理和評估,在用戶信用歷史、行為偏好、履約能力、身份特質(zhì)、人脈關(guān)系五個維度客觀呈現(xiàn)個人信用狀況的綜合分值。芝麻分的分值范圍為350至950,分值越高代表信用越好,相應(yīng)違約率相對較低,較高的芝麻分可以幫助用戶獲得更高效、更優(yōu)質(zhì)的服務(wù)。

01

信用衡量的就是先享后付的能力,那就是要讓該享受服務(wù)的人能享受到服務(wù)。一個該一個能。該的人不能,不該的人能,是要解決的關(guān)鍵問題。

想清楚兩件事情,你就知道怎么做這樣一款產(chǎn)品了。

一是,哪些信息能衡量一個人的信用?

兩個維度,一是能力,二是意愿。能力取決于你的收支情況,以及保持收支平衡的穩(wěn)定性的水平。所以,你的就業(yè)、你的收入、你的消費很重要,不僅在于當(dāng)前是什么水平,還在于它是不是穩(wěn)定的。如果你四海為家,如果你黃賭毒,都是穩(wěn)定性上的負(fù)面。

意愿的衡量本質(zhì)在于違約的成本,這一定程度上和收支相關(guān),但并不相同,因為數(shù)字化時代法律約束變?nèi)趿?,更靠的是道德約束。這時候,意愿的刻畫就很困難,但意愿體現(xiàn)在你的信用歷史中。

一個月入十萬的人找你借一萬塊錢,和一個每次借錢下個月都及時還錢的人找你借錢,你更愿意借給誰呢?

不管你去搜集哪些數(shù)據(jù),它們都是刻畫這兩個指標(biāo)的工具。

二是,做信用產(chǎn)品的根本目的是什么?

顯然,做產(chǎn)品的目的是希望它能被用的盡可能多,但用的盡可能多一定是效果盡可能好嗎?

答案是否定的。

企業(yè)做信用評分,討好的是用戶,但付費的是需要查詢評分的商戶。討好的是用戶是說,你要關(guān)注幾乎所有用戶的幾乎所有方面的需求,不能僅僅是大部分用戶的大部分需求,否則客訴可能讓你的產(chǎn)品活不下去。企業(yè)要考慮面向用戶可解釋,商戶不需要。

付費的是商戶意味著,企業(yè)需要的是商戶調(diào)用的越來越多,不是當(dāng)前足夠多,是長期足夠多,而商戶需要的是效果好,效果好就更精準(zhǔn),長期反而不會更多。兩者的利益是不完全對等的。

這意味著,構(gòu)建這樣的模型時要根據(jù)經(jīng)驗挑選覆蓋各個維度的變量,并使其保持絕對的可解釋性,而不光是選擇區(qū)分度高的變量。前者是芝麻信用這種產(chǎn)品的視角,后者是A/B/C/F卡的視角。

你說企業(yè)內(nèi)部也要用啊,不需要效果盡可能好才更好嗎?

企業(yè)又不是只用這一個工具。

02

我們來重點聊一聊芝麻信用的數(shù)據(jù)變量。

這個數(shù)據(jù)變量服務(wù)總共包含 65 個變量,按照芝麻信用評分維度(一級分類)和 DAS 變量類別(二級分類)分類如下:

如前所述,相信你對這五大維度一點也不吃驚。身份特質(zhì)、履約能力體現(xiàn)了“收”,行為特質(zhì)體現(xiàn)了“支”,信用歷史體現(xiàn)了意愿,人脈關(guān)系也體現(xiàn)了違約的成本項。

圖中變量數(shù)量,基本就體現(xiàn)了這些類別的重要程度。信用歷史往往是最重要的,其次是履約能力。

同樣的一萬塊錢,借給一個每次借錢下個月都及時還錢的人,比借給一個月入十萬的人靠譜的多。

這 65 個變量進(jìn)一步拆分為 8 個核心變量和 57 個基礎(chǔ)變量。

這些變量的分段邏輯,按文檔的說法是,綜合考慮 DAS 變量在全量芝麻用戶上的數(shù)值分布對好壞用戶的區(qū)分度將其進(jìn)行分段,最多分十五段。分段序號?01-15 代表變量數(shù)值由小到大的排列順序。

我們詳細(xì)看一看這8個核心變量,57個基礎(chǔ)變量匯總放在后面。

在身份特質(zhì)項中,更核心的變量竟然是穩(wěn)定性指標(biāo),而不是行職業(yè)信息。一方面是因為,行職業(yè)信息一般很難準(zhǔn)確獲??;另一方面,所在公司、所做職業(yè)是需要分類到大類上的,這類信息在住房按揭這種長期貸款中很重要,對短期借貸沒有直接作用關(guān)系。不管是消費信貸,還是信用生活,還款能力的刻畫完全不需要上升到行職業(yè),反而穩(wěn)定性指標(biāo)更為重要。

第三方支付的核心在于深度和廣度,支付業(yè)務(wù)要看廣度,對應(yīng)的當(dāng)然要看用戶使用第三方支付的廣度。行為特質(zhì)中,支付活躍場景數(shù)就很好的體現(xiàn)了這個廣度。而支付金額和資產(chǎn)等維度在下面的履約能力中體現(xiàn)。

履約能力選取了一個資產(chǎn)一個支出一個消費層次。資產(chǎn)和支出不必說,消費層次意義在于,只消費生活必須品,和對精神物品有強烈需求的,代表了不同的層級。

信用歷史中更為關(guān)注信用還款,而非逾期,我推測原因有二,一是還款類的信息豐富度會高很多,二是正面信息在面向用戶可見的產(chǎn)品上更為友好,它既能一定程度上起到和負(fù)面信息類似的效果,在相對關(guān)系上負(fù)面降分和正面增分區(qū)別不大,還能激勵用戶更高頻高額地借還。

剩余 47 個基礎(chǔ)變量,我整理如下。

上述變量除了選取的指標(biāo)值得學(xué)習(xí)外,時間窗口也很值得注意。另外,顯而易見,這些變量很多都是相關(guān)的,它們都會被用在芝麻分里面嗎?它們怎么綜合得到一個芝麻信用分呢?

當(dāng)然是通過權(quán)重進(jìn)行組合。

權(quán)重如何得到?

“綜合考慮 DAS 變量在全量芝麻用戶上的數(shù)值分布對好壞用戶的區(qū)分度將其進(jìn)行分段”,既然變量的分組是參考了好壞用戶的區(qū)分度的,專業(yè)名詞就是WOE,那變量的組合當(dāng)然是對好壞用戶進(jìn)行建模得到。

但是,這些變量,高度相關(guān)的變量,是會被評分卡篩選掉的。有效的模型不可能用到了其中所有的變量,即使有,我推測,很多變量也是人為地被賦予了無關(guān)痛癢的權(quán)重。

請注意,這是 DAS 變量數(shù)據(jù)服務(wù)文檔,并未稱作芝麻信用分產(chǎn)品介紹。我推測芝麻信用分的關(guān)鍵在那8個核心變量,我說的是關(guān)鍵,并不是說完全不用那57基礎(chǔ)變量。

另外,芝麻分作為面向用戶的產(chǎn)品,還兼有營銷激勵的功能,最終的芝麻分除模型計算外,應(yīng)該還有其他環(huán)節(jié)的增減分設(shè)置。

03

花唄將全面接入央行征信系統(tǒng),用戶使用花唄需不需要擔(dān)心哪些問題呢?

征信關(guān)乎個人信用,花唄是當(dāng)代人超前消費的好助手,當(dāng)它倆一拍即合,消費者應(yīng)怎么考慮?

我不說責(zé)任和義務(wù),也覺得有必要說幾句。

現(xiàn)在大概央行收錄的自然人11億,其中有信貸數(shù)據(jù)的應(yīng)該不到一半,我們消金業(yè)務(wù)發(fā)起申請查得率稍高一些,60%左右。也就是說,絕大多數(shù)人的征信數(shù)據(jù)信息是比較少的,就是那些簡單的身份信息,沒有金融信用數(shù)據(jù)。

傳統(tǒng)的信用評估模型是根據(jù)一個人的借貸歷史和還款表現(xiàn),通過邏輯回歸的方式來判斷這個人的信用情況?,F(xiàn)在越來越興起大數(shù)據(jù)模型,它的數(shù)據(jù)源就十分廣泛,包括電商、社交、搜索瀏覽等行為都產(chǎn)生了大量的數(shù)據(jù)。

所以,顯然,花唄接入央行征信,對各大平臺來說好處很大,因為用戶的信用更好被評估了,那對用戶來說呢,是不是就不好呢?

不是的,對用戶來說其實影響不大,但要注意養(yǎng)成按時還款的習(xí)慣。

花唄對征信的補充,主要就影響了兩點,借貸次數(shù)多了,逾期信息多了。

風(fēng)控策略呢,也就是信用評估,借貸次數(shù)多了影響不大,次數(shù)再多也只算一個機構(gòu),一般不會認(rèn)為這是壞行為,主要是逾期,逾期這種負(fù)面行為容易被風(fēng)控拒絕,偶然性的逾期其實也不至于太壞。銀行信審有個說法,稱為“連3累6”,即連續(xù)出現(xiàn)三個月逾期,兩年內(nèi)共計六次逾期,這種屬于嚴(yán)重的違約行為。但最好別逾期。

所以,可以照常用,養(yǎng)成按時還款的習(xí)慣基本就妥了。

我先是消費者,再是消金行業(yè)從業(yè)人員,我的立場始終是消費者。我說這話的一個依據(jù)是,對于《個人信息保護(hù)法》的出臺,我第一感覺是這是好的,而不是這很糟糕。

04

還是要聲明,上述說的很多事情,我并沒有取證,甚至懶得找螞蟻的朋友確認(rèn),我們有時候關(guān)注如何做一件事的原理和本質(zhì)就夠了,至于一個實例的所有detail,其實并沒有太多價值去研究。就像,一個結(jié)構(gòu)工程師蓋房子,也實在沒必要一定要知道建筑立面要做哪些裝飾,這可能只是某些人的要求而已。

另外,我在http://theventurebank.com/data-analysis/5118872.html這篇文章中,提到過這幾款信用評分,包括芝麻信用分、微信支付分和小白守約分。下面的說法來自那篇文章。

無論是天貓?zhí)詫毦〇|的消費還是花唄白條支付的海量交易數(shù)據(jù),都可以用來評價個人的還款能力和意愿。結(jié)合著馬斯洛需求理論,也就是生理、安全、情感、尊重、自我實現(xiàn)依次升級,越能體現(xiàn)高級需求的數(shù)據(jù)越可以給更高的權(quán)重。也就是說重要的不是單次購買行為,而是消費習(xí)慣。

而那些店鋪商家,平臺有他們所有的交易、資金、物流信息,都可以用來作為金融服務(wù)的依據(jù)。

你掌握了一個人的人際關(guān)系,就掌握了這個人。社交關(guān)系鏈,不僅可以用來評估信用,還能直接作為質(zhì)押物,因為每個人都在乎它,而且很在乎。

我在知乎搜這個話題時,發(fā)現(xiàn)有不少問題在問如何提高芝麻分。也說一句。

如果你想要提升分?jǐn)?shù),就考慮下那些核心變量吧。另外值得注意的是,這些變量都是時間窗口的,并且是分段的,你的行為會被攤平到一段時間內(nèi),并且需要分段后跳檔才能對結(jié)果產(chǎn)生影響。這給提升分?jǐn)?shù)帶來了難度,也是防止指標(biāo)造假的科學(xué)手段。

 

本文由@雷帥 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 想知道的是,核心的8個變量是怎么定義出來的?謝謝。

    來自廣東 回復(fù)
  2. 第一次看到關(guān)于芝麻信用的文章,不過多贅述,對于我個人而言,芝麻信用確實還是蠻不錯的應(yīng)用

    來自江蘇 回復(fù)
  3. 就是因為這樣做 所以現(xiàn)在炸了 接口已經(jīng)下架了 不允許外部調(diào)用了

    回復(fù)
  4. 風(fēng)控玩來玩去,考驗的還是人性,p2p就是活深深的例子。

    來自浙江 回復(fù)
  5. 個人認(rèn)為,對于花唄、白條這類信貸產(chǎn)品,能不用就不用。提前消費不是一個好習(xí)慣,而且對征信是否有影響也不太好說。

    來自四川 回復(fù)
    1. 其實,對絕大多數(shù)人來說它們都只是支付工具,提前消費是不好,但支付是帶來了很大的便利的。

      回復(fù)
  6. 雖然一直都在領(lǐng)取芝麻的積分,但從來都沒用過,也不知道能用來干啥的。

    來自廣東 回復(fù)
  7. 做產(chǎn)品的目的是希望它能被用的盡可能多,但用得多一定是效果好嗎,其實也不見得,還是按時還款,保持自己的良好信用吧。

    來自湖北 回復(fù)
    1. 這種產(chǎn)品是不純粹的,要滿足的要求很多,而不僅僅光追求信用風(fēng)險評估效果好

      來自北京 回復(fù)