數(shù)據(jù)分析丨安卓和IOS的用戶留存率都有提升,大盤留存率一定提升嗎?

Ver
0 評論 2765 瀏覽 22 收藏 11 分鐘

只要是在可拆解場景,都有「坑」的身影。本文從「辛普森悖論」著手,側(cè)重于其在業(yè)務中的實際表現(xiàn)場景,分析業(yè)務中有哪些可能踩坑的地方,一起來看一下吧。

今天分享一個分析師的老朋友——「辛普森悖論」,只要是在可拆解場景,都有「坑」的身影,所以也成為了數(shù)據(jù)分析面試中的常客。本文主要側(cè)重于其在業(yè)務中的實際表現(xiàn)場景,需要分析同學引起警惕,其之「坑」,小則忽略改進機會,大則結(jié)論直接錯誤。

一、什么是辛普森悖論

既然叫「悖論」,首先肯定是反常識的。還是以一個簡單的案例來引入吧:

(案例瞎編,如有雷同,純屬巧合)假設(shè)一個產(chǎn)品,無論安卓端還是IOS端的用戶留存率都較去年同期有提升,是否大盤的留存率一定有提升?

受過多年應試教育錘煉的我們,看到「一定」兩個字就會覺得必有玄機。

是的,你沒想錯,就算我們窮舉了各個維度,且各個維度趨勢一致,也未必能反映大盤的特性。

為什么?因為我們只關(guān)注了「比值」而沒關(guān)心「絕對值」。

讓我們把數(shù)據(jù)展開再看一下實際的量級:

是不是很能反映問題了?

雖然雙端的留存率都有提升,但是整體的留存率出現(xiàn)了大幅下降。其主要原因是iOS用戶出現(xiàn)大量流失,只剩下核心用戶;安卓端次月留存率較低,但用戶量級較大,拉低了整體留存率。

這就是有名的辛普森悖論,用學術(shù)一點的語言解釋:

計算分項的比例(比如各種各樣的率)數(shù)據(jù)時,A方的每一分項的數(shù)據(jù)都比B方要高,但是把各分項一匯總起來算總體數(shù)據(jù)時,A方卻比B方低。這種不符合常規(guī)認知的“悖論”現(xiàn)象,在數(shù)據(jù)分析領(lǐng)域并不少見;這種在進行分組研究的時候,有時在每個組比較時都占優(yōu)勢的一方,在總評中有時反而是失勢的一方的“悖論”現(xiàn)象就叫辛普森悖論。」

接下來,我們來看看在業(yè)務中有哪些可能踩坑的地方。

場景一:只注重比例指標,不注重絕對值變化

在工作場景中,這樣的表述是不是似曾相識:

  • 「我們的活躍用戶付費率從3%提升到了5%,說明付費流程改版效果非常好,對用戶的付費率有了較大幅度的提升?!?/li>
  • 「近期我們APP的內(nèi)容播放率有所提升,親子類播放率提升30%,歷史類播放率提升10%,所以APP內(nèi)容播放率的提升是親子類內(nèi)容帶來的?!?/li>

乍看好像沒啥問題,但是其實經(jīng)不起推敲。

面對情景一,也許我們按重度用戶、輕度用戶去拆解,會發(fā)現(xiàn)兩邊的付費率其實都沒有明顯改變,這個付費率的提升是由于近期重度用戶在日活中的占比增加了。那把付費率的提升歸功于付費流程的改版好像多少有點不對勁。

后續(xù)的分析過程中,我們的重點就需要調(diào)整為「為什么重度用戶在日活的占比增加了」??赡苁且驗檩p度用戶轉(zhuǎn)化為了重度用戶,好事情,不用太擔心。也可能是輕度用戶逐漸流失了,只留下一些重度用戶,那我們又得進一步分析「為什么輕度用戶逐漸流失」。

數(shù)據(jù)分析,就是類似這樣抽絲剝繭的過程。

對于場景二,也與場景一大同小異,忽略量級直接聊比例都是耍流氓。假設(shè)本來親子內(nèi)容有10個播放,現(xiàn)在13個,歷史類本來有1000個播放,現(xiàn)在有1100個。你還能自信的說內(nèi)容播放率提升是由親子內(nèi)容播放提升帶來的嗎?

與之類似,當一個渠道今天的新增注冊用戶只有100人時,明天有1000個新增都是10倍增長。一個新增注冊有10,000人的渠道,哪怕只漲10%,就能帶來同等的增量。

場景二:拆解做得不夠,關(guān)鍵維度有缺失

簡單來說,我們?nèi)绻蛔霾鸾饣蛘卟鸾庾龅牟粔?,只關(guān)注總體表現(xiàn),就會忽略了「被平均」的一部分人,或者忽略其他關(guān)鍵維度對數(shù)據(jù)的影響。數(shù)據(jù)分析的藝術(shù)有時候也就是從各個維度拆解的藝術(shù),忽略關(guān)鍵維度,小則錯失改進的機會,大則出現(xiàn)結(jié)論性錯誤。

比如,投放時我們發(fā)現(xiàn)某個投放素材的ROI較低,就決定直接把它停了。但是真實世界往往是十分復雜的,也許這個素材在中國不行,在美國又行了,在美國不行,在南美又行了。在高收入人群不行,可能在低收入人群又很能打。

這里引用頭條的一道面試題來進一步解釋吧:

對潛在客戶進行投放時,30歲以上客戶1000人,轉(zhuǎn)化率2%,30歲以下3000人,轉(zhuǎn)化率4%,整體轉(zhuǎn)化率就是3.5%,所以分析師得出結(jié)論:30歲以上的客戶價值低,不建議再投放。請問這個結(jié)論合理嗎?

我們有幾種角度來駁斥這個結(jié)論。

第一,沒有呈現(xiàn)其他重要維度,可能是樣本選擇不均衡。首先,30歲以下選了3,000人,30歲以上則選了1,000人,30歲以下用戶和30歲以上的用戶的人口學特征是否一致呢?

假設(shè)咱們30歲以上人群選的低收入人群占比高,30歲以下選的是高收入人群占比高,對結(jié)論必然產(chǎn)生影響。所以除了30歲以下/30歲以上這個拆分,我們可能還要按人群收入進行拆分。

第二,衡量投放效果,不能僅僅關(guān)注轉(zhuǎn)化率,也要關(guān)注用戶生命周期整體LTV。假設(shè)30歲以下人群買的大多是9.9的走量產(chǎn)品,30歲以上買的都是999的利潤產(chǎn)品,你還能說30歲以上的用戶沒有價值嗎?

場景三:AB實驗時測試效果很好,實際上線后翻車

而辛普森悖論也可以為一些業(yè)務現(xiàn)象提供一些合理解釋。「AB實驗測試效果好,上線效果一般」的原因有很多,比如「新奇效應」或者「統(tǒng)計顯著不等于業(yè)務顯著」,但是「辛普森悖論」也是導致翻車的種子選手之一。

舉個例子,雖然我們在進行AB實驗時會對用戶進行隨機分流,我也認可這種分流足夠準確,但是測試往往是跟隨版本迭代進行的,可能這類率先進入ab實驗,勤于更新的用戶本身就是這種對app更為熱衷,活躍度更高的用戶。最后我們依照實驗結(jié)果發(fā)布版本,可能對于某些活躍度沒這么高的用戶,反而有負面影響。

甚至極端一點,實驗版的新用戶流程可能有bug,但是因為新用戶在大盤占比較低,如果我們只看大盤數(shù)據(jù),可能不會注意到實驗已經(jīng)對新用戶體驗產(chǎn)生惡劣影響。

所以要求我們在分析過程中,除了關(guān)注主指標,也關(guān)注重要維度拆解出的關(guān)鍵指標。比如我已經(jīng)知道某個維度下各個群體的用戶(比如新用戶和老用戶)的指標表現(xiàn)有所不同了,也很難在實驗層面就保證各組用戶在該維度下的用戶占比是完全均勻的,除了總指標,就需要對該指標進行進一步拆解分析。比如看付費率不光看總體付費率,也看新用戶付費率和老用戶付費率。

另外做足夠精細的數(shù)據(jù)分析,也可以讓我們更好的把實驗價值最大化。比如某實驗顯示雖然總體付費率提升只有0.1%,沒有顯著性。但是對于某特定人群來說提升明顯,可以讓30歲以上的女性付費率提升30%,那么這個實驗仍然有上線的價值。

Reference:

關(guān)于辛普森悖論的深度解析,奇奇和蒂蒂

數(shù)據(jù)分析——工作中遇到的“辛普森悖論”,森谷蘑

從大廠數(shù)據(jù)分析面試題了解「辛普森悖論」,趣談數(shù)據(jù)分析

淺談AB測試里常見的辛普森悖論,王曄

本文由 @Ver 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!