淺談運(yùn)營工作中的貝葉斯陷阱
貝葉斯定理廣泛應(yīng)用于各類場景,如機(jī)器學(xué)習(xí)、大數(shù)據(jù)挖掘、工程分析、金融投資等,本文僅探討貝葉斯定理在運(yùn)營數(shù)據(jù)分析中的一點(diǎn)思考。
一、什么是貝葉斯定理
貝葉斯定理是關(guān)于隨機(jī)事件A和B的條件概率(或邊緣概率)的一則定理。
頻率主義學(xué)派認(rèn)為參數(shù)是客觀存在的,即使是未知的,但都是固定值,不會改變。頻率學(xué)派認(rèn)為進(jìn)行一定數(shù)量的重復(fù)實(shí)驗后,如果出現(xiàn)某個現(xiàn)象的次數(shù)與總次數(shù)趨于某個值,那么這個比值就會傾向于固定。
最簡單的例子就是拋硬幣了,在理想情況下,我們知道拋硬幣正面朝上的概率會趨向于1/2,而貝葉斯提出了一種截然不同的觀念,他認(rèn)為概率不應(yīng)該這么簡單地計算,而需要加入先驗概率的考慮。先驗概率也就是說,我們先設(shè)定一個假設(shè),然后通過一定的實(shí)驗來證明/推翻這個假設(shè),這就是后驗。隨后,舊的后驗會成為一個新的先驗。
以下便是貝葉斯公式:
- P(A|B) 是在B發(fā)生的情況下,事件A發(fā)生的概率;
- P(A)是A發(fā)生的概率;
- P(B|A)是在A發(fā)生的情況下B發(fā)生的概率;
- P(B) 是B發(fā)生的概率。
簡單講,貝葉斯定律是在已知某條件的前提下,推算某事件發(fā)生的概率。
二、貝葉斯定律的應(yīng)用
貝葉斯方法對于由證據(jù)的積累來推測一個事物發(fā)生的概率具有重大作用,它告訴我們當(dāng)我們要預(yù)測一個事物,我們需要的是首先根據(jù)已有的經(jīng)驗和知識推斷一個先驗概率(或者根據(jù)事實(shí)引入先驗概率),然后在新證據(jù)不斷積累的情況下調(diào)整這個概率。
我們以下面的例子,來一窺貝葉斯定律的妙用。
如果某種疾病的發(fā)病率為千分之一,現(xiàn)在有一種試紙,他在患者得病的情況下,有99%的準(zhǔn)確率判斷患者得病;在患者沒得病的情況下,有5%的可能誤判患者得病?,F(xiàn)在試紙說一個患者得了病,那么患者真的得病的概率是多少?(在看下文之前大家先憑感覺預(yù)估一下,真正的得病概率應(yīng)該很高吧?)
為了方便理解,我們先通過一個樹形圖進(jìn)行判斷,我們假設(shè)有100000的人群。
通過以上樹狀圖,邏輯就會比較清晰。在題干給出的條件下,患者真正的得病率是多少呢?用真正得病的99作為分子,測出有病的4995+99作為分母,99÷(99+4995)=1.94%
在此案例中,用貝葉斯公式計算:
- P(A1|B)代表試紙查出患病前提下,真實(shí)的患病概率;
- P(A1)代表真實(shí)患者概率,即0.1%;
- P(A2)代表健康人群概率,即99.9%;
- P(B)代表試紙查出患者的概率;
- P(B|A1)為真實(shí)患者條件下試紙查出患者的概率,即99%;
- P(B|A2)為健康人群條件下試紙誤判為患者的概率,即5%;
代入公式,也可得出結(jié)論。
這個案例就是貝葉斯定律比較經(jīng)典的一個應(yīng)用,在已知前提下測算事件發(fā)生的概率。
三、運(yùn)營數(shù)據(jù)分析中的貝葉斯陷阱
1. 錯誤的判斷
通過以上案例大家對貝葉斯定律都有了一定的了解,但是普及概念不是咱的本意,貝葉斯在運(yùn)營工作中有什么應(yīng)用呢?說實(shí)話,本來我對貝葉斯在運(yùn)營工作中能有多大的作用并沒有概念,直到我在前段時間的一個活動復(fù)盤中發(fā)下了下面的案例。
我們有一個王牌訓(xùn)練營活動,每期活動我們會選擇一個IT技術(shù)方向,設(shè)計系列課程,每日引導(dǎo)用戶打卡學(xué)習(xí),完成學(xué)習(xí)后領(lǐng)取獎品?;顒臃譃檎心计?,課程期兩個時段。
在招募過程我們會投放諸多付費(fèi)or免費(fèi)渠道,如我們自建的流量池、微信矩陣、外部大站、論壇、SEM等,所有活動在結(jié)束后我們都會做復(fù)盤報告。
在上一期復(fù)盤的過程中我們發(fā)現(xiàn)了一個有趣的數(shù)據(jù),參與我們訓(xùn)練營的用戶畫像中,工作經(jīng)驗為1-3年的開發(fā)者居多,占比在70%以上。因此,我們這一期的活動復(fù)盤報告中有了如下分析:
參與活動的開發(fā)者以1-3年工作經(jīng)驗者居多,說明我們的課程內(nèi)容對此類開發(fā)者更具有吸引力,可以針對此類開發(fā)者,做課程設(shè)計上的優(yōu)化。同時,說明工作1-3年的開發(fā)者對于自我提升上的需求更為強(qiáng)烈,后續(xù)可以在此群體重點(diǎn)推廣。
那么大家有沒有發(fā)現(xiàn)關(guān)于這一條數(shù)據(jù)的分析有什么問題?
我們的訓(xùn)練營報名用戶工作年限是1-3年居多,這是一個結(jié)果,我們只針對這個結(jié)果進(jìn)行了分析。那么按照貝葉斯定律,很明顯我們忽略了導(dǎo)致這個結(jié)果的前提條件:我們的投放渠道覆蓋的用戶工作年限的分布,這個前提條件的忽略最終可能影響了我們對整件事情的判斷。
2. 分析的修正
如果活動投放渠道所覆蓋的用戶就是1-3年工作經(jīng)驗居多,自然報名訓(xùn)練營的用戶也會是這個群體居多,那我們的數(shù)據(jù)復(fù)盤關(guān)于這一條的分析就是錯誤的,并不能說明我們的課程對工作1-3年的開發(fā)者更具有吸引力。如果我們的投放渠道用戶分布平均,而活動報名用戶出現(xiàn)了如上的分布,那我們的復(fù)盤總結(jié)便是有意義的。
在意識到以上因素后,我們對這一期活動投放渠道的引流數(shù)據(jù)做了回顧:
很明顯,能發(fā)現(xiàn)本次活動自有流量池引流效果最為顯著,報名人數(shù)占總?cè)藬?shù)的65%,而有趣的是,根據(jù)我們先前統(tǒng)計,我們的自有流量用戶工作年限畫像,1-3年工作經(jīng)驗的用戶占比也是最多的,占整個自有流量池用戶的半數(shù)以上。
因此,在回溯投放渠道這一數(shù)據(jù)之后,我們發(fā)現(xiàn)最初的活動復(fù)盤中的分析并站不住腳。
以上便是貝葉斯定律在運(yùn)營中應(yīng)用的一個小例子的分享,如果大家關(guān)注到這一點(diǎn)便會發(fā)現(xiàn)在運(yùn)營的角角落落里都有貝葉斯理論的身影,一不小心我們就可能陷入貝葉斯陷阱而不自知,導(dǎo)致對數(shù)據(jù)或者整個運(yùn)營活動的分析出現(xiàn)偏差,進(jìn)而影響整個運(yùn)營策略的制定和調(diào)整。
作者:Stark,一個討厭寫文章的運(yùn)營人。
本文由 @Stark 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于CC0協(xié)議。
想知道作者最終活動復(fù)盤中,結(jié)論是什么?
逆向運(yùn)用貝葉斯定理,作者的腦子有意思喲
我喜歡這個角度的思考
文章不錯
幸存者偏差
贊,還真是同樣的道理