產品分析之統(tǒng)計學悖論

5 評論 10177 瀏覽 55 收藏 9 分鐘

在做產品分析時,統(tǒng)計結果截然相反,是何種原因引起的呢?這種情況該如何應對呢?

近期面試聊到了產品分析時統(tǒng)計結果截然相反時,分析人員變成了熱鍋上的螞蟻,手足無措。這到底是什么引起的呢?早在1951年性別歧視的案子中就發(fā)現了這種相悖的統(tǒng)計結果。

最典型的例子:?1973年加利福尼亞大學伯克利分校性別歧視案的例子:

大家從表格里可以看到,如果只看整體錄取率,那么男生的錄取率是44%,女生的是30%。

但加利福尼亞大學伯克利分校的統(tǒng)計學教授 Peter Bickel 后來發(fā)現,如果按照院系分類,女生實際上比男生的錄取率還高一些。

一、細節(jié)和整體趨勢完全不同

辛普森悖論(Simpson’s paradox):當你把數據拆開細看的時候,細節(jié)和整體趨勢完全不同的現象。

我們簡化上述表格,發(fā)現悖論是由于基數產生的影響——男生在學院1和學院2的分布和女生的分布截然相反引起的。

在日常分析工作也經常存在這樣的現象,經常在兩端分析時,大都以為兩端作為拆分對比,如iOS、Android投放廣告的轉化率分析中,通過兩端的轉化率可以得到結論1,但將iOS、Android按照網頁版本、移動版本拆分后會得到完全相反的結論:

結論1: iOS的總體轉化率低于Android。

  • 基于此可以得到的結論是該批次廣告不適合iOS平臺;
  • iOS平臺需要做在轉化過程中需要做進一步的漏斗分析以便優(yōu)化。

結論2: 網頁版本iOS的轉換率高于Android,且移動端iOS的 轉化率也高于Android。

  • 基于此可以得到的結論是該批次廣告不適合Android平臺;
  • Android平臺需要做在轉化過程中需要做進一步的漏斗分析以便優(yōu)化。

如果沒有辯證的結合多個維度分析該數據表現,則會被誤導,在錯誤的方向上投入更多的精力,甚至是完全相反的決策。

二、相關分析中,整體相關性和組間相關性相反。

假設我們有每周運動小時屬于兩組患者(50歲以下、50歲以上的患者)患病風險的對比數據。以下為兩組患者患病可能性的散點圖:

由下圖(x軸是運動小時數、y軸是風險)可以得到的結論是:患病風險與運動小時數呈負相關。

將2組數據合并后,得到的結論是:患病風險與運動小時數呈正相關。與分組結論皆然相反。

原因是:患病幾率是由多種因素引起的,年齡比運動時間的影響程度更大。在分析運動時間與發(fā)病幾率時,忽略了年齡等其他因素——而進一步拆分后,會得到完全不同的結論。

先前恰巧有通過相關性分析來探討變量與留存、回訪間的關系。

不同停留時長的用戶在留存上面的表現,發(fā)現停留時長越長的用戶留存以及回訪現象越不好,這和app使用基本認知相反;

而結合用戶用戶行為深度分析發(fā)現,用戶行為越深留存以及回訪現象越好。相比籠統(tǒng)的停留時長(包括app使用時長、后臺時長),用戶行為深度對用戶留存以及回訪影響更大,其相關表現也更符合真實的現象。

數據分析相比數據挖掘、深度學習,最大的優(yōu)勢就是可解釋性,得到的結論需要多結合場景、用戶屬性思考,是否看到了數據的全貌。

三、AB測試中細分結果和整體結果相悖

AB測試中細分結果和整體結果相悖則要小心了……來看下面這個例子:

通過A、B兩種療法結石的治愈率來看哪一種療法更好。

基于大結石、小結石,A療法都比B療法要好;但匯總結果卻是B療法比A療法要好。無法判斷那個療法更好。

你應該看了本文的第一個例子,可以發(fā)現A、B療法在不同類型的結石中基數差異引起了問題。

在兩個組內不同類型的結石中基數差異可能是由第三中因素引起的,如該例子因為醫(yī)生似乎覺得病情較重的患者更適合 A 療法,病情較輕的患者更適合 B 療法,所以下意識的在隨機分配患者的時候,讓 A 組里面大結石病歷要多,而 B 組里面小結石病歷要多。

更重要的問題是,很有可能影響患者康復率的最重要因素并不是療法的選擇,而是病情的輕重!換句話說,A 療法之所以看上去不如 B 療法,主要是因為 A 組病人里重病患者多,并不是因為 A 組病人采用 A 療法。

如果將A療法都比B療法可以等價為ab測試的對照組和實驗組,則會發(fā)現這個case就是活生生的ab測試結果數據,并且匯總結果中兩組存在明顯差異,欣喜若狂的上線實驗,但上線后整體數據結果表現并不理想。

所以,這一組不成功的 A/B 測試,問題出在試驗流量分割的不科學,主要是因為流量分割忽略了一個重要的“隱藏因素”,也就是病情輕重。正確的試驗實施方案,兩組試驗患者里,重病患者的比例應該保持一致。

理想的ab測試實質是控制變量分析法,不同組(實驗組、對照組)之間,僅在實驗方案上存在差異,在其他的表征上(包括用戶屬性、行為屬性上都不存在差異)。

四、如何避免辛普森悖論

當前權威的統(tǒng)計學家沒有給出一個確切有效的解決方式,因為悖論往往涉及到了業(yè)務層面的分類,告訴我們不能僅以統(tǒng)計數字來推導準確的因果關系。總體分析時需要結合多維度、屬性、場景來分析,仔細地研究分析各種影響因素,不要籠統(tǒng)概括地、淺嘗輒止地看問題。

在做數據分析的時,一定要遵循數據分析的目的——通過數據分析的手段來解釋問題、現象,且勿唯“數據”論。

附錄:

總結悖論的時候,參考了很多文章,非常感謝每一篇文章的講解:

《辛普森悖論》

《淺談A/B測試里常見的辛普森悖論,企業(yè)決策者必看》

《數據分析必須警惕的坑:辛普森悖論》

《辛普森悖論?如何解?一招搞定!》

 

本文由 @cecil 原創(chuàng)發(fā)布于人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 之前看到一句話說的是,數據分析是最大的謊言,我感覺其實就是對數據分析不到位導致的,如何才能確保自己的分析是對的呢

    回復
  2. 這么好的文章居然收藏點贊不多,估計能看懂的人估計不多。多數人還是只喜歡看不需要動腦子的流水賬。

    來自江蘇 回復
    1. 你這也要動腦子?

      來自北京 回復
  3. 話題挺好的,但是確定里面有些數字沒寫錯么還有正負相關性。。

    來自江蘇 回復
    1. 第二組的相關性應該是正相關,看得仔細。晚上修改更新

      回復