回歸模型可解決的決策問題-DeepSeek分析第二篇
在數(shù)據(jù)分析和決策支持領(lǐng)域,回歸模型是解決復(fù)雜業(yè)務(wù)問題的強(qiáng)大工具。本文通過深入探討回歸模型在預(yù)測(cè)和解釋變量關(guān)系中的應(yīng)用,展示了如何利用多元線性回歸和邏輯回歸模型解決實(shí)際業(yè)務(wù)中的決策問題
在上一篇deepseek生成時(shí)間預(yù)測(cè)模型分析之后,繼續(xù)探索deepseek結(jié)合分析的可能性,讓它用于解決業(yè)務(wù)中常見的決策問題。
常見決策問題
預(yù)測(cè)問題:已知一部分變量,想要預(yù)測(cè)另一變量。
- 比較常見的,比如在知道二手房房屋面積、房齡、地段、房屋新舊程度等因素,想要知道它的售賣價(jià)格應(yīng)該定在多少;
- 又或者知道一個(gè)人的收入水平、年齡、性別、歷史信用卡還款及時(shí)情況、近期消費(fèi)金額,想要知道這個(gè)人對(duì)一筆大額借款的借款概率和違約概率是多少,是借款優(yōu)質(zhì)用戶,還是違約高危用戶?
解釋:在眾多變量中,想要知道這些變量對(duì)目標(biāo)變量的影響程度是多大。
- 比如在房屋面積、房齡、地段、房屋新舊程度,哪個(gè)是對(duì)房屋價(jià)格影響最大的因素,在重點(diǎn)獲得房源時(shí),應(yīng)該著重關(guān)注哪個(gè)?
- 又或者收入水平、年齡、性別、歷史信用卡還款及時(shí)情況、近期消費(fèi)金額等對(duì)判斷優(yōu)質(zhì)/高危的人群,哪個(gè)是更重要的因素,在擴(kuò)展用戶中應(yīng)該重點(diǎn)關(guān)注哪部分用戶?
回歸模型簡(jiǎn)介
以上兩個(gè)問題,使用多元線性模型和邏輯回歸模型可簡(jiǎn)單解決。
簡(jiǎn)單看一下兩個(gè)模型的數(shù)學(xué)表達(dá)式:
- 線性回歸:Y=β0+β1X1+β2X2+β3X3+···+βkXk
- 邏輯回歸:ln(P/(1-P))=β0+β1X1+β2X2+β3X3+···+βkXk ,進(jìn)行指數(shù)轉(zhuǎn)化即可得到概率公式
其中X為變量,β為參數(shù),以示意圖來(lái)理解的話(非數(shù)學(xué)表達(dá)式對(duì)應(yīng)圖形)
簡(jiǎn)單解釋上圖:多元線性回歸,就是找到一條線,使得每組x對(duì)應(yīng)的預(yù)測(cè)值y都與真實(shí)y距離和最短(垂直距離);邏輯回歸,是找到一條線,可以將兩個(gè)不同的類別,準(zhǔn)確分到這條線的兩邊,與實(shí)際類別相比預(yù)測(cè)對(duì)的個(gè)數(shù)越多越好。
邏輯回歸其實(shí)是一種特殊的多元線性回歸,它進(jìn)行了一次指數(shù)轉(zhuǎn)化,把線性回歸結(jié)果值映射到(0,1]上并保持單調(diào),表達(dá)的含義為是y的概率,如以會(huì)流失的用戶為目標(biāo)群體,所計(jì)算的概率就為用戶流失率。
回歸模型案例實(shí)操
舉個(gè)例子做個(gè)實(shí)操,假如在二手車交易平臺(tái),新上架一輛二手車,現(xiàn)在需要填寫參考價(jià)格,希望它既能很快賣掉,又可以盡量多賺到錢。
先梳理一下報(bào)價(jià)的參考信息,車輛的參數(shù)很多如發(fā)動(dòng)機(jī)相關(guān)的排量、智能系統(tǒng)是否有中控屏、車輛輔助配置是否有雷達(dá)等,這些同新車參數(shù)一樣,也有一些二手車特有比如行駛里程、上牌年份等。重點(diǎn)挑一下對(duì)購(gòu)買具有決策價(jià)值的字段,假如篩了如下這些:
對(duì)于二手車預(yù)計(jì)價(jià)格可以用多元線性回歸模型處理,對(duì)于未來(lái)3年是否保值這類是否問題,可以使用邏輯回歸預(yù)測(cè)未來(lái)3年可保值(p>0.5)的概率。模型選擇之后,可能還需要解決一些疑問:
1. 自變量的處理
- 年份,它本身是個(gè)數(shù)值,但該數(shù)值并沒有任何物理含義,需要加工一下讓它變成距離今天的時(shí)間間隔,年份越小,車子越新。
- 排量,它是能衡量發(fā)動(dòng)機(jī)性能具有物理含義的指標(biāo),但多數(shù)情況下車的排量只有幾檔,數(shù)值本身作用不大,需要對(duì)它進(jìn)行效應(yīng)編碼,提取它的序1、2、3、4。
- 車級(jí)別、是否有中控屏或是否BBA等,甚至連數(shù)字都不是,很難放到線性模型里,這時(shí)就需要對(duì)類別做處理生成虛擬變量,比如以車輛類別的“轎車”作為參考組,SUV和MPV表示如下
2. 參數(shù)估計(jì)
- 線性回歸,通過計(jì)算預(yù)估值和真實(shí)值最小均方誤差,MSE = (1/n) * Σ(y_i – ?_i)^2,其中n是樣本數(shù)量,y_i是真實(shí)值,?_i是預(yù)測(cè)值,數(shù)值越小誤差越小。
- 邏輯回歸,通過最小化對(duì)數(shù)損失 Log Loss = – (1/N) * Σ [y_i * log(p_i) + (1 – y_i) * log(1 – p_i)],log loss越小表示損失越小。
3. 模型評(píng)估指標(biāo)
- 線性回歸,R2、MSE、調(diào)整R2 ,R2越高越好,MSE越低越好。
- 邏輯回歸,準(zhǔn)確率、AUC-ROC、混淆矩陣、F1分?jǐn)?shù),AUC越高越好。
4. 模型結(jié)果
【二手車價(jià)格預(yù)測(cè)模型】
價(jià)格預(yù)測(cè)模型公式 Y1 = 22.636+0.069×行駛里程(萬(wàn)km)-1.8737×上牌距今年間隔+0.3383×新車指導(dǎo)價(jià)(萬(wàn)元)-3.6993×中控屏-4.3435×排量+2.3033×BBA品牌-3.3105×SUV車型+3.5228×MPV車型
假如新上架一輛二手車,對(duì)應(yīng)的變量如下,求Y1
- X1 行駛里程數(shù):12
- X2 距今上牌年份間隔:6
- X3 新車指導(dǎo)價(jià):29.75
- X4 是否有中控屏:1
- X5 排量:2
- X6 是否BBA及以上:0
- X7 SUV車型:0
- X8 MPV車型:0
預(yù)測(cè):可通過變量進(jìn)行二手車售賣價(jià)格為9.89萬(wàn)元
模型解釋:
- 回看公式,以X2和X3 這兩個(gè)系數(shù)較為顯著的變量來(lái)看,X2距今上牌間隔車齡每增加一年,價(jià)格就會(huì)下降1.87萬(wàn);而X3新車指導(dǎo)價(jià)每增加1萬(wàn)元,對(duì)于二手車價(jià)格就會(huì)增加0.3萬(wàn)元(其他變量是均值的情況下)
- 而對(duì)于X7和X8來(lái)說,是在車級(jí)別為轎車的基礎(chǔ)上判斷對(duì)二手車價(jià)格的影響,即相對(duì)于轎車而言,如果是SUV則二手車價(jià)格會(huì)降3萬(wàn)元,如果是MPV則會(huì)增加3.5萬(wàn)元(當(dāng)然這里的P值不顯著即該變量其實(shí)對(duì)結(jié)果影響并沒有那么大)
- 還要注意的是,這里通過VIF分析和經(jīng)驗(yàn)判斷,也會(huì)發(fā)現(xiàn)一點(diǎn)問題,即行駛里程和上牌距今年間隔具有很強(qiáng)的相關(guān)性,且X2 VIF=16.69,需要做特征選擇或變換。
【二手車是否保值模型】
是否保值預(yù)測(cè)公式Y(jié)2= ln(p/(1-p)) = -3.4375 + (-0.0293)*行駛里程(萬(wàn)km) + (0.4238)*上牌距今年間隔 + (0.0200)*新車指導(dǎo)價(jià)(萬(wàn)元) + (1.5857)*中控屏 + (-0.4167)*排量 + (-0.3276)*BBA品牌+ (0.5123)*SUV車型+ (1.6684)*MPV車型
假如新上架一輛二手車,對(duì)應(yīng)的變量如下,求Y2
- X1 行駛里程數(shù):12
- X2 距今上牌年份間隔:6
- X3 新車指導(dǎo)價(jià):29.75
- X4 是否有中控屏:1
- X5 排量:2
- X6 是否BBA及以上:0
- X7 SUV車型:0
- X8 MPV車型:0
預(yù)測(cè):未來(lái)保值的概率為0.52
模型解釋
- X2上牌距今年間隔增加1年,其Odds Ratio=e0.4238≈1.528,即距今車齡增加1年保值的的概率增加52.8% ,當(dāng)然該指標(biāo)也沒有那么顯著地影響到是否保值(Odds Ratio= P/(1-P),優(yōu)勢(shì)比),車齡越長(zhǎng)反而越保值有點(diǎn)反常識(shí)的,但仔細(xì)思考,新車轉(zhuǎn)手賣成二手車會(huì)大幅貶值,時(shí)間越長(zhǎng)它的貶值幅度反而變緩。由此,也說明該變量更做時(shí)間衰減處理,這里就先不展開了。
以上,利用回歸模型進(jìn)行預(yù)測(cè)和變量解釋。方法比較簡(jiǎn)單,不管是預(yù)測(cè)還是變量解釋性還有一些調(diào)優(yōu)的空間,在后邊的文章中會(huì)再詳細(xì)介紹。
但是,可定量衡量自變量對(duì)因變量的影響,對(duì)一些因素的重要程度進(jìn)行判斷,已經(jīng)可以幫助我們?cè)诩姺钡囊蛩刂校业椒较蚝椭攸c(diǎn)。
作者:小王子和小企鵝,公眾號(hào):小王子和小企鵝 ?
本文由@小王子和小企鵝 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒評(píng)論,等你發(fā)揮!