淺談AB測(cè)試?yán)锍R?jiàn)的辛普森悖論

優(yōu)秀的增長(zhǎng)黑客,不會(huì)去投機(jī)取巧“制造數(shù)據(jù)”,而是認(rèn)真思考和試驗(yàn),用科學(xué)可信的數(shù)據(jù)來(lái)指導(dǎo)自己和企業(yè)的決策,通過(guò)無(wú)數(shù)次失敗的和成功的AB測(cè)試試驗(yàn),總結(jié)經(jīng)驗(yàn)教訓(xùn),變身能力超強(qiáng)的超級(jí)英雄。
辛普森悖論(Simpson’s Paradox)是英國(guó)統(tǒng)計(jì)學(xué)家E.H.辛普森(E.H.Simpson)于1951年提出的悖論,即在某個(gè)條件下的兩組數(shù)據(jù),分別討論時(shí)都會(huì)滿足某種性質(zhì),可是一旦合并考慮,卻可能導(dǎo)致相反的結(jié)論。
舉一個(gè)辛普森悖論的簡(jiǎn)單小例子:一個(gè)大學(xué)有商學(xué)院和法學(xué)院兩個(gè)學(xué)院。這兩個(gè)學(xué)院的女生都抱怨“男生錄取率比女生錄取率高”,有性別歧視。但是學(xué)校做總錄取率統(tǒng)計(jì),發(fā)現(xiàn)總體來(lái)說(shuō)女生錄取率卻遠(yuǎn)遠(yuǎn)高于男生錄取率!
商學(xué)院男生錄取率75%高于女生錄取率49%,法學(xué)院男生錄取率10%也高于女生錄取率5%,但是總計(jì)來(lái)說(shuō)男生錄取率只有21%,只有女生錄取率42%的一半。
為什么兩個(gè)學(xué)院都是男生錄取率高于女生錄取率,但是加起來(lái)男生錄取率卻不如女生錄取率呢?主要是因?yàn)檫@兩個(gè)學(xué)院男女比例很不一樣,具體的統(tǒng)計(jì)學(xué)原理我們后面會(huì)詳細(xì)分析。
這個(gè)詭異(Counter intuitive)的現(xiàn)象在現(xiàn)實(shí)生活中經(jīng)常被忽略,畢竟只是一個(gè)統(tǒng)計(jì)學(xué)現(xiàn)象,一般情況下都不會(huì)影響我們的行動(dòng)。但是對(duì)于使用科學(xué)的 AB 測(cè)試進(jìn)行試驗(yàn)的企業(yè)決策者來(lái)說(shuō),如果不了解辛普森悖論,就可能會(huì)錯(cuò)誤的設(shè)計(jì)試驗(yàn),盲目的解讀試驗(yàn)結(jié)論,對(duì)決策產(chǎn)生不利影響。
我們用一個(gè)真實(shí)的醫(yī)學(xué) AB 測(cè)試案例來(lái)說(shuō)明這個(gè)問(wèn)題。這是一個(gè)腎結(jié)石手術(shù)療法的 AB 測(cè)試結(jié)果:
看上去無(wú)論是對(duì)于大型結(jié)石還是小型結(jié)石,A 療法都比 B 療法的療效好。但是總計(jì)而言,似乎 B 療法比 A 療法要好。
這個(gè) AB 測(cè)試的結(jié)論是有巨大問(wèn)題的,無(wú)論是從細(xì)分結(jié)果看,還是從總計(jì)結(jié)果看,都無(wú)法真正判斷哪個(gè)療法好。
那么,問(wèn)題出在哪里呢?這個(gè) AB 測(cè)試的兩個(gè)實(shí)驗(yàn)組的病歷選取有問(wèn)題,都不具有足夠的代表性。參與試驗(yàn)的醫(yī)生人為的制造了兩個(gè)試驗(yàn)組本身不相似,因?yàn)獒t(yī)生似乎覺(jué)得病情較重的患者更適合 A 療法,病情較輕的患者更適合 B 療法,所以下意識(shí)的在隨機(jī)分配患者的時(shí)候,讓 A 組里面大結(jié)石病歷要多,而 B 組里面小結(jié)石病歷要多。
更重要的問(wèn)題是,很有可能影響患者康復(fù)率的最重要因素并不是療法的選擇,而是病情的輕重!換句話說(shuō),A 療法之所以看上去不如 B 療法,主要是因?yàn)?A 組病人里重病患者多,并不是因?yàn)?A 組病人采用 A 療法。
所以,這一組不成功的 AB 測(cè)試,問(wèn)題出在試驗(yàn)流量分割的不科學(xué),主要是因?yàn)榱髁糠指詈雎粤艘粋€(gè)重要的“隱藏因素”,也就是病情輕重。正確的試驗(yàn)實(shí)施方案里,兩組試驗(yàn)患者里,重病患者的比例應(yīng)該保持一致。
因?yàn)楹芏嗳巳菀缀雎孕疗丈U?,以至于有人可以?zhuān)門(mén)利用這個(gè)方法來(lái)投機(jī)取巧。舉個(gè)例子,比賽100場(chǎng)球賽以總勝率評(píng)價(jià)好壞。取巧的人專(zhuān)找高手挑戰(zhàn)20場(chǎng)而勝1場(chǎng),另外80場(chǎng)找平手挑戰(zhàn)而勝40場(chǎng),結(jié)果勝率41%;認(rèn)真的人則專(zhuān)挑高手挑戰(zhàn)80場(chǎng)而勝8場(chǎng),而剩下20場(chǎng)平手打個(gè)全勝,結(jié)果勝率為28%,比41%小很多。但仔細(xì)觀察挑戰(zhàn)對(duì)象,后者明顯更有實(shí)力。
從這幾個(gè)辛普森悖論的例子出發(fā),聯(lián)想到我們互聯(lián)網(wǎng)產(chǎn)品運(yùn)營(yíng)的實(shí)踐里,一個(gè)非常常見(jiàn)的誤判例子是這樣的:拿1%用戶跑了一個(gè)試驗(yàn),發(fā)現(xiàn)試驗(yàn)版本購(gòu)買(mǎi)率比對(duì)照版本高,就說(shuō)試驗(yàn)版本更好,我們要發(fā)布試驗(yàn)版本。其實(shí),可能只是我們的試驗(yàn)組里圈中了一些愛(ài)購(gòu)買(mǎi)的用戶而已。最后發(fā)布試驗(yàn)版本,反而可能降低用戶體驗(yàn),甚至可能造成用戶留存和營(yíng)收數(shù)額的下降。
那么,如何才能在 AB 測(cè)試的設(shè)計(jì),實(shí)施,以及分析的時(shí)候,規(guī)避辛普森悖論造成的各種大坑呢?
最重要的一點(diǎn)是,要得到科學(xué)可信的 AB 測(cè)試試驗(yàn)結(jié)果,就必須合理的進(jìn)行正確的流量分割,保證試驗(yàn)組和對(duì)照組里的用戶特征是一致的,并且都具有代表性,可以代表總體用戶特征。這個(gè)問(wèn)題一直是 AppAdhoc A/B Testing 云服務(wù)的云端系統(tǒng)著力研究和解決的問(wèn)題。
在這里,特別要提出一下這個(gè)問(wèn)題的一個(gè)特殊屬性:在流量試驗(yàn)越大時(shí),辛普森悖論發(fā)生的條件越有可能觸發(fā)。這是一個(gè)和大數(shù)定理以及中心極限定理等“常規(guī)”實(shí)踐經(jīng)驗(yàn)完全不同的統(tǒng)計(jì)學(xué)現(xiàn)象。換句話說(shuō),大流量試驗(yàn)比小流量試驗(yàn)可以消除很多噪音和不確定性,但是反而可能受到辛普森悖論的影響。
舉個(gè)例子說(shuō)明:如果只是拿100人做試驗(yàn),50人一組隨機(jī)分配,很可能是28男22女對(duì)22男28女,每個(gè)性別只是相差6個(gè)人而已。如果是拿10000人做試驗(yàn),5000人一組隨機(jī)分配,很可能是2590男2410女對(duì)2410男2590女,每個(gè)性別就差了180人,而這180人造成的誤差影響就可能很大。
除了流量分配的科學(xué)性,我們還要注意 AB 測(cè)試的試驗(yàn)設(shè)計(jì)與實(shí)施。
在試驗(yàn)設(shè)計(jì)上,如果我們覺(jué)得某兩個(gè)變量對(duì)試驗(yàn)結(jié)果都有影響,那我們就應(yīng)該把這兩個(gè)變量放在同一層進(jìn)行互斥試驗(yàn),不要讓一個(gè)變量的試驗(yàn)動(dòng)態(tài)影響另一個(gè)變量的檢驗(yàn)。如果我們覺(jué)得一個(gè)試驗(yàn)可能會(huì)對(duì)新老客戶產(chǎn)生完全不同的影響,那么就應(yīng)該對(duì)新客戶和老客戶分別展開(kāi)定向試驗(yàn),觀察結(jié)論。
在試驗(yàn)實(shí)施上,對(duì)試驗(yàn)結(jié)果我們要積極的進(jìn)行多維度的細(xì)分分析,除了總體對(duì)比,也看一看對(duì)細(xì)分受眾群體的試驗(yàn)結(jié)果,不要以偏蓋全,也不要以全蓋偏。一個(gè)試驗(yàn)版本提升了總體活躍度,但是可能降低了年輕用戶的活躍度,那么這個(gè)試驗(yàn)版本是不是更好呢?一個(gè)試驗(yàn)版本提升總營(yíng)收0.1%,似乎不起眼,但是可能上海地區(qū)的年輕女性 iPhone 用戶的購(gòu)買(mǎi)率提升了20%,這個(gè)試驗(yàn)經(jīng)驗(yàn)就很有價(jià)值了。
分層試驗(yàn),交叉試驗(yàn),定向試驗(yàn)是我們規(guī)避辛普森悖論的有力工具。
規(guī)避辛普森悖論,還要注意流量動(dòng)態(tài)調(diào)整變化的時(shí)候新舊試驗(yàn)參與者的數(shù)據(jù)問(wèn)題,試驗(yàn)組和對(duì)照組用戶數(shù)量的差異問(wèn)題,以及其他各種問(wèn)題。而優(yōu)秀的增長(zhǎng)黑客,不會(huì)去投機(jī)取巧“制造數(shù)據(jù)”,而是認(rèn)真思考和試驗(yàn),用科學(xué)可信的數(shù)據(jù)來(lái)指導(dǎo)自己和企業(yè)的決策,通過(guò)無(wú)數(shù)次失敗的和成功的AB測(cè)試試驗(yàn),總結(jié)經(jīng)驗(yàn)教訓(xùn),變身能力超強(qiáng)的超級(jí)英雄。
作者:王曄,吆喝科技創(chuàng)始人兼 CEO
本文由 @王曄 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
很受益,不過(guò)有個(gè)疑問(wèn)請(qǐng)教。“在流量試驗(yàn)越大時(shí),辛普森悖論發(fā)生的條件越有可能觸發(fā)?!迸e的例子雖然180個(gè)人比6個(gè)人多,但是按照比例算卻更小呀。。不知道這么算對(duì)不對(duì)哈
有點(diǎn)意思