淺談運(yùn)營工作中的貝葉斯陷阱

Stark
6 評論 6991 瀏覽 29 收藏 9 分鐘
对未来感到迷茫?起点课堂的导师将为你提供专业的职业发展规划指导,帮你明确方向、设定目标,让你在产品经理的道路上,每一步都走得清晰而坚定。

貝葉斯定理廣泛應(yīng)用于各類場景,如機(jī)器學(xué)習(xí)、大數(shù)據(jù)挖掘、工程分析、金融投資等,本文僅探討貝葉斯定理在運(yùn)營數(shù)據(jù)分析中的一點(diǎn)思考。

一、什么是貝葉斯定理

貝葉斯定理是關(guān)于隨機(jī)事件A和B的條件概率(或邊緣概率)的一則定理。

頻率主義學(xué)派認(rèn)為參數(shù)是客觀存在的,即使是未知的,但都是固定值,不會改變。頻率學(xué)派認(rèn)為進(jìn)行一定數(shù)量的重復(fù)實(shí)驗后,如果出現(xiàn)某個現(xiàn)象的次數(shù)與總次數(shù)趨于某個值,那么這個比值就會傾向于固定。

最簡單的例子就是拋硬幣了,在理想情況下,我們知道拋硬幣正面朝上的概率會趨向于1/2,而貝葉斯提出了一種截然不同的觀念,他認(rèn)為概率不應(yīng)該這么簡單地計算,而需要加入先驗概率的考慮。先驗概率也就是說,我們先設(shè)定一個假設(shè),然后通過一定的實(shí)驗來證明/推翻這個假設(shè),這就是后驗。隨后,舊的后驗會成為一個新的先驗。

以下便是貝葉斯公式:

  • P(A|B) 是在B發(fā)生的情況下,事件A發(fā)生的概率;
  • P(A)是A發(fā)生的概率;
  • P(B|A)是在A發(fā)生的情況下B發(fā)生的概率;
  • P(B) 是B發(fā)生的概率。

簡單講,貝葉斯定律是在已知某條件的前提下,推算某事件發(fā)生的概率。

二、貝葉斯定律的應(yīng)用

貝葉斯方法對于由證據(jù)的積累來推測一個事物發(fā)生的概率具有重大作用,它告訴我們當(dāng)我們要預(yù)測一個事物,我們需要的是首先根據(jù)已有的經(jīng)驗和知識推斷一個先驗概率(或者根據(jù)事實(shí)引入先驗概率),然后在新證據(jù)不斷積累的情況下調(diào)整這個概率。

我們以下面的例子,來一窺貝葉斯定律的妙用。

如果某種疾病的發(fā)病率為千分之一,現(xiàn)在有一種試紙,他在患者得病的情況下,有99%的準(zhǔn)確率判斷患者得病;在患者沒得病的情況下,有5%的可能誤判患者得病?,F(xiàn)在試紙說一個患者得了病,那么患者真的得病的概率是多少?(在看下文之前大家先憑感覺預(yù)估一下,真正的得病概率應(yīng)該很高吧?)

為了方便理解,我們先通過一個樹形圖進(jìn)行判斷,我們假設(shè)有100000的人群。

通過以上樹狀圖,邏輯就會比較清晰。在題干給出的條件下,患者真正的得病率是多少呢?用真正得病的99作為分子,測出有病的4995+99作為分母,99÷(99+4995)=1.94%

在此案例中,用貝葉斯公式計算:

  • P(A1|B)代表試紙查出患病前提下,真實(shí)的患病概率;
  • P(A1)代表真實(shí)患者概率,即0.1%;
  • P(A2)代表健康人群概率,即99.9%;
  • P(B)代表試紙查出患者的概率;
  • P(B|A1)為真實(shí)患者條件下試紙查出患者的概率,即99%;
  • P(B|A2)為健康人群條件下試紙誤判為患者的概率,即5%;

代入公式,也可得出結(jié)論。

這個案例就是貝葉斯定律比較經(jīng)典的一個應(yīng)用,在已知前提下測算事件發(fā)生的概率。

三、運(yùn)營數(shù)據(jù)分析中的貝葉斯陷阱

1. 錯誤的判斷

通過以上案例大家對貝葉斯定律都有了一定的了解,但是普及概念不是咱的本意,貝葉斯在運(yùn)營工作中有什么應(yīng)用呢?說實(shí)話,本來我對貝葉斯在運(yùn)營工作中能有多大的作用并沒有概念,直到我在前段時間的一個活動復(fù)盤中發(fā)下了下面的案例。

我們有一個王牌訓(xùn)練營活動,每期活動我們會選擇一個IT技術(shù)方向,設(shè)計系列課程,每日引導(dǎo)用戶打卡學(xué)習(xí),完成學(xué)習(xí)后領(lǐng)取獎品?;顒臃譃檎心计?,課程期兩個時段。

在招募過程我們會投放諸多付費(fèi)or免費(fèi)渠道,如我們自建的流量池、微信矩陣、外部大站、論壇、SEM等,所有活動在結(jié)束后我們都會做復(fù)盤報告。

在上一期復(fù)盤的過程中我們發(fā)現(xiàn)了一個有趣的數(shù)據(jù),參與我們訓(xùn)練營的用戶畫像中,工作經(jīng)驗為1-3年的開發(fā)者居多,占比在70%以上。因此,我們這一期的活動復(fù)盤報告中有了如下分析:

參與活動的開發(fā)者以1-3年工作經(jīng)驗者居多,說明我們的課程內(nèi)容對此類開發(fā)者更具有吸引力,可以針對此類開發(fā)者,做課程設(shè)計上的優(yōu)化。同時,說明工作1-3年的開發(fā)者對于自我提升上的需求更為強(qiáng)烈,后續(xù)可以在此群體重點(diǎn)推廣。

那么大家有沒有發(fā)現(xiàn)關(guān)于這一條數(shù)據(jù)的分析有什么問題?

我們的訓(xùn)練營報名用戶工作年限是1-3年居多,這是一個結(jié)果,我們只針對這個結(jié)果進(jìn)行了分析。那么按照貝葉斯定律,很明顯我們忽略了導(dǎo)致這個結(jié)果的前提條件:我們的投放渠道覆蓋的用戶工作年限的分布,這個前提條件的忽略最終可能影響了我們對整件事情的判斷。

2. 分析的修正

如果活動投放渠道所覆蓋的用戶就是1-3年工作經(jīng)驗居多,自然報名訓(xùn)練營的用戶也會是這個群體居多,那我們的數(shù)據(jù)復(fù)盤關(guān)于這一條的分析就是錯誤的,并不能說明我們的課程對工作1-3年的開發(fā)者更具有吸引力。如果我們的投放渠道用戶分布平均,而活動報名用戶出現(xiàn)了如上的分布,那我們的復(fù)盤總結(jié)便是有意義的。

在意識到以上因素后,我們對這一期活動投放渠道的引流數(shù)據(jù)做了回顧:

很明顯,能發(fā)現(xiàn)本次活動自有流量池引流效果最為顯著,報名人數(shù)占總?cè)藬?shù)的65%,而有趣的是,根據(jù)我們先前統(tǒng)計,我們的自有流量用戶工作年限畫像,1-3年工作經(jīng)驗的用戶占比也是最多的,占整個自有流量池用戶的半數(shù)以上。

因此,在回溯投放渠道這一數(shù)據(jù)之后,我們發(fā)現(xiàn)最初的活動復(fù)盤中的分析并站不住腳。

以上便是貝葉斯定律在運(yùn)營中應(yīng)用的一個小例子的分享,如果大家關(guān)注到這一點(diǎn)便會發(fā)現(xiàn)在運(yùn)營的角角落落里都有貝葉斯理論的身影,一不小心我們就可能陷入貝葉斯陷阱而不自知,導(dǎo)致對數(shù)據(jù)或者整個運(yùn)營活動的分析出現(xiàn)偏差,進(jìn)而影響整個運(yùn)營策略的制定和調(diào)整。

 

作者:Stark,一個討厭寫文章的運(yùn)營人。

本文由 @Stark 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 想知道作者最終活動復(fù)盤中,結(jié)論是什么?

    來自河北 回復(fù)
  2. 逆向運(yùn)用貝葉斯定理,作者的腦子有意思喲

    回復(fù)
  3. 我喜歡這個角度的思考

    來自浙江 回復(fù)
  4. 文章不錯

    來自北京 回復(fù)
  5. 幸存者偏差

    回復(fù)
    1. 贊,還真是同樣的道理

      來自廣東 回復(fù)
专题
17865人已学习14篇文章
MVP是指开发团队通过提供最小化可行产品获取用户反馈,并在这个最小化可行产品上持续快速迭代,直到产品到达一个相对稳定的阶段。本专题的文章分享了如何做MVP产品。
专题
16399人已学习13篇文章
在产品工作中,产品的可行性分析就太重要了,这是产品从想法到实施必须经历的。本专题的文章分享了如何做产品可行性分析。
专题
18340人已学习15篇文章
签到功能是培养用户习惯的好办法。本专题的文章提供了签到功能的设计指南。
专题
13445人已学习12篇文章
OTA,在线旅游(Online Travel Agency)指“旅游消费者通过网络向旅游服务提供商预定旅游产品或服务,并通过网上支付或者线下付费。
专题
13223人已学习12篇文章
数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中通过算法搜索隐藏于其中信息的过程。本专题的文章分享了如何挖掘数据。
专题
13725人已学习12篇文章
本专题的文章分享了B端产品经理的通用工作流程。