一文搞懂“預(yù)測模型”:建模思路、模型分類、應(yīng)用場景

0 評論 279 瀏覽 0 收藏 8 分鐘
🔗 B端产品经理需要更多地关注客户的商业需求、痛点、预算、决策流程等,而C端产品经理需要更多地关注用户的个人需求

在數(shù)據(jù)分析領(lǐng)域,預(yù)測模型扮演著至關(guān)重要的角色。本文旨在為讀者提供一份簡明扼要的指南,從建模的基本思路到模型的分類,再到具體的應(yīng)用場景,全方位解讀預(yù)測模型的構(gòu)建與運(yùn)用。通過這篇文章,無論是數(shù)據(jù)新手還是有經(jīng)驗(yàn)的分析師,都能獲得寶貴的洞見,提升數(shù)據(jù)分析的準(zhǔn)確性和效率。

“建個模型預(yù)測一下!”一聽到要建模預(yù)測,很多同學(xué)都會菊花一緊。可以用來做預(yù)測模型很多,但是往往領(lǐng)導(dǎo)們喊著“建個模型”的時(shí)候,他丟給你的就孤零零的一行數(shù),形如下圖:

這咋辦呀!你可能很想說:“就幾個數(shù),咱拍腦袋吧!”,這時(shí)候還會被領(lǐng)導(dǎo)批評。那死馬當(dāng)活馬醫(yī)的話,該咋整呢?

一、建模思路

建預(yù)測模型有兩個基本思路:因果關(guān)系/時(shí)間序列

1、基于因果關(guān)系建模。比如預(yù)測一個用戶是否消費(fèi),會把該用戶性別、年齡、過往消費(fèi)記錄、喜歡什么商品、瀏覽過哪些網(wǎng)頁等可能影響消費(fèi)的因素視為X,將消費(fèi)結(jié)果視為Y,之后利用數(shù)據(jù)計(jì)算出X與Y的公式。

2、基于時(shí)間序列建模。它把待預(yù)測的指標(biāo)(銷售額、用戶數(shù)、出貨量等)視為Y,把時(shí)間視為X,把待預(yù)測指標(biāo)隨著時(shí)間發(fā)展而變化的公式計(jì)算出來(形如y=ax+b,不過具體形式會更復(fù)雜)。

直觀地看,兩種思路需要的數(shù)據(jù)格式如下:

顯然,在僅有一行數(shù)據(jù)的情況下,因果關(guān)系預(yù)測很難實(shí)現(xiàn)。并且一般這種只丟一行數(shù)據(jù)讓預(yù)測的公司,一般數(shù)據(jù)基建也很稀爛,最多給個業(yè)績=訂單數(shù)*客單價(jià),很少記錄影響用戶購買的原因。綜上,在只有一列數(shù)的情況下,用時(shí)間序列法比較省事。

二、建模準(zhǔn)備

時(shí)間序列法有3種基礎(chǔ)形態(tài)(如下圖所示):

根據(jù)不同的形態(tài),可以選擇不同的方法。因此在建模的時(shí)候,要先觀察數(shù)據(jù)形態(tài)。比如開頭的例子,顯然同時(shí)有季節(jié)性+趨勢性(如下圖所示),因此可以用帶趨勢的季節(jié)回歸來做。

三、建模過程

第一步:分別把代表趨勢的自變量(t),代表季節(jié)的自變量Q1、Q2、Q3構(gòu)造出來(如下圖)因變量(Y)就是銷售額。

 

第二步:利用回歸模型,計(jì)算相關(guān)參數(shù),這里直接用Excel的回歸分析功能做。

第三步:觀察結(jié)果,寫出預(yù)測模型的公式。

第四步:代入下一年度的參數(shù),得出預(yù)測數(shù)值。

這樣就做完啦!如果領(lǐng)導(dǎo)想看,可以從回歸分析的源頭講起,R平方的計(jì)算公式,參數(shù)估計(jì)原理,F(xiàn)檢驗(yàn)與t檢驗(yàn)。非數(shù)據(jù)出身的領(lǐng)導(dǎo)們一聽這么多專業(yè)名詞,對模型的幻想得到了一定程度的滿足,也就能交差了。

四、模型擴(kuò)展

Excel的回歸分析默認(rèn)是線性回歸。但有可能X與Y之間不是線性關(guān)系,比如公司業(yè)務(wù)在高速增長階段,隨著時(shí)間發(fā)展,業(yè)績越來越好,此時(shí)可能是多項(xiàng)式 or 對數(shù)關(guān)系。

因此在建模以前,可以先做散點(diǎn)圖,檢查下數(shù)據(jù)之間的關(guān)系。有趣的是,excel在添加趨勢線的時(shí)候,可以直接選擇擬合曲線,因此想偷懶的同學(xué),完全可以直接如下圖操作。

不過要注意的是:R平方并不是唯一判斷標(biāo)準(zhǔn),在擬合完走勢后,還得關(guān)注:

1、是否擬合走勢與原數(shù)據(jù)走勢明顯不相符

2、是否擬合走勢某些點(diǎn)不合業(yè)務(wù)邏輯

3、是否擬合走勢近期誤差過大

要先做排除法,剔除這些明顯有問題的。

如果剔除過后,依然有多個模型符合條件,可以計(jì)算每個模型擬合數(shù)據(jù) VS 實(shí)際數(shù)據(jù)的均方差(MSE:Mean Squared Error),選一個均方差較小的模型來用。

當(dāng)然,時(shí)間序列法還有平滑法以及平滑法的各種變體(holter & winter模型),還有ARIMA、LSTM等模型可用,等以后有機(jī)會再一一介紹。

小結(jié)

本質(zhì)上看,時(shí)間序列法就是模擬過去的走勢,然后按過去的走勢推演。這種做法和我們用肉眼觀察數(shù)據(jù)走勢,拍腦袋拍個數(shù)值沒有思路上的區(qū)別,僅僅是用公式替代了肉眼觀察,增加了精確度而已。

不過,話說回來,做預(yù)測,本身就是“長袖善舞,多錢善賈”,數(shù)據(jù)越豐富,預(yù)測準(zhǔn)確可能性越大。數(shù)據(jù)貧瘠,那也只能這樣將就下。

而且,如果真出現(xiàn)黑天鵝事件,那啥方法也預(yù)測不準(zhǔn)呀。如果是壓根沒數(shù)據(jù)的,比如一款過去從未做過的產(chǎn)品,那壓根就不能做預(yù)測,而是得做測試。這就需要用到統(tǒng)計(jì)學(xué)假設(shè)檢驗(yàn)方法。

本文由人人都是產(chǎn)品經(jīng)理作者【接地氣的陳老師】,微信公眾號:【接地氣的陳老師】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
11725人已学习12篇文章
本专题的文章分享了营销增长指南。
专题
16122人已学习12篇文章
数据中台是处于业务前台和技术后台的中间层。本专题的文章分享了如何搭建数据中台。
专题
14351人已学习13篇文章
数据仓库是所有产品的数据中心,公司体系下的所有产品产生的所有数据最终都流向数据仓库。本专题的文章分享了什么是数据仓库和如何搭建数据仓库。
专题
13786人已学习13篇文章
广告是互联网的最大的商业模式,已经逐步形成一个巨大的行业,整个互联网广告也在持续增长中。本专题的文章分享了关于对互联网广告的思考与分析
专题
16941人已学习16篇文章
为达成业务运营目标,合理使用数据工具指导运营决策的过程,就是数据化运营。本专题的文章分享了数据化运营指南。