從0到1玩轉(zhuǎn)AB測試評估體系搭建

0 評論 1490 瀏覽 21 收藏 7 分鐘
🔗 产品经理在不同的职业阶段,需要侧重不同的方面,从基础技能、业务深度、专业领域到战略规划和管理能力。

本文以一個擁有數(shù)千萬用戶的頭部物流APP為例,詳細(xì)介紹如何基于Google的多層實驗框架建立AB測試評估體系,從而精確度量和改進(jìn)產(chǎn)品的多種交互場景。

一、應(yīng)用場景

某頭部互聯(lián)網(wǎng)APP目前擁有數(shù)千萬級別的用戶量,每天有數(shù)百萬用戶在app上使用寄快遞、查快遞、網(wǎng)點(diǎn)查詢、運(yùn)費(fèi)查詢等相關(guān)服務(wù)。

在日常用戶精細(xì)化運(yùn)營中,需要準(zhǔn)確評估大量交互場景,以輔助業(yè)務(wù)決策。

AB測試是一種常用的數(shù)據(jù)驅(qū)動方法,用于評估不同版本的用戶界面、功能或設(shè)計。

它旨在幫助決策者了解哪個版本能夠更好地滿足用戶需求,優(yōu)化產(chǎn)品并改善用戶體驗。

本文將基于Google多層實驗框架原理,來進(jìn)行AB測試評估體系搭建的探索研究。

二、解決方案

AB測試通過為同一個迭代目標(biāo)制定兩個或多個策略方案,并在同一時間維度內(nèi)讓具有相同(或相似)組成成分的A/B群組分別采用這些策略,收集各群組的體驗數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù),最后分析評估出最佳策略,使迭代朝著更好的方向演進(jìn)。

1. 關(guān)鍵步驟

AB測試評估體系構(gòu)建通常包括以下3個關(guān)鍵步驟:

(1)樣本量測算;

(2)樣本分流;

(3)評估機(jī)制(顯著性檢測)

2. 樣本量測算

在AB測試中,樣本量的測算至關(guān)重要。樣本量大小會影響實驗結(jié)果的可靠性和統(tǒng)計顯著性。以下是常見的樣本量測算公式:

其中:

n為總樣本量;

α和β分別為第一類錯誤概率和第二類錯誤概率,一般取0.05和0.2;

Z為正態(tài)分布的分位數(shù)函數(shù), Z1?α/2=1.96,Z1?β=0.84;

δ代表預(yù)期實驗組和對照組兩組數(shù)據(jù)的差值。

在AB測試中還會涉及到樣本隨機(jī)化和多重檢驗校正等。建議根據(jù)具體情況綜合考慮這些因素,以確保獲得合適且有效的樣本量。

3. 樣本分流

在Google多層實驗框架中,樣本hash分流是一種常見方法。

基于分流算法,將樣本均勻地分配至不同實驗中。在實際操作過程中使用參與者的唯一標(biāo)識符(如會員號或Cookie)作為輸入,并將其通過哈希函數(shù)轉(zhuǎn)換為一個固定范圍內(nèi)的哈希值。該哈希值可用于確定參與者被分配到哪個實驗組。

通過使用hash分流方法,可以確保每個參與者在樣本中都具有相同概率被隨機(jī)地分配到不同實驗組,并減少偏差,在評估不同變體之間的差異時保證可靠性。

4. 顯著性評估

構(gòu)建AB測試顯著性評估機(jī)制非常關(guān)鍵,它有助于確定實驗結(jié)果是否具有統(tǒng)計上的顯著性。步驟如下:

Step 1:確定希望使用的顯著性水平(即第一類錯誤指拒絕了正確假設(shè)),通常情況下表示為α。

Step 2:確定所需樣本量:為確保實驗結(jié)果達(dá)到所需統(tǒng)計顯著性水平,在目標(biāo)效應(yīng)大小、所選顯著性水平和統(tǒng)計功效之間進(jìn)行計算。

Step 3:選擇適當(dāng)?shù)慕y(tǒng)計檢驗方法:根據(jù)實際設(shè)計和指標(biāo)類型選擇適當(dāng)?shù)慕y(tǒng)計檢驗方法(如t檢驗或卡方檢驗)。

Step 4:在實驗結(jié)束后收集實驗組和對照組數(shù)據(jù),并使用所選統(tǒng)計檢驗方法進(jìn)行假設(shè)檢驗,并基于觀察到差異計算P值。

Step 5:P值代表觀察到結(jié)果或更極端結(jié)果出現(xiàn)概率。如果P值小于預(yù)先設(shè)定的顯著性水平,則可以拒絕原始假設(shè)并得出結(jié)論認(rèn)為結(jié)果具有統(tǒng)計上顯著性。

5. ab測試評估體系流程圖

基于上述最小樣本量測算、hash分流以及顯著性評估等步驟,在構(gòu)建AB測試系統(tǒng)時可以考慮以下模塊:實驗配置、分流、計算、分析輸出等模塊。

重要模塊功能說明

(a)實驗?zāi)K:由業(yè)務(wù)方完成相關(guān)配置,例如定義實際評估指標(biāo)、設(shè)置實際評估周期以及確定實施方式;

(b)計算模塊:基于歷史數(shù)據(jù)值來完成當(dāng)前所需最小樣本量測算;

(c)分流模塊:根據(jù)最小樣本量以及配置好的分組信息利用hash打散方式 進(jìn)行均勻分流(推薦采用二次hash方式來規(guī)避碰撞問題),以保證樣本共享且被隨機(jī)地劃入不同試驗證明理義;

(d)分析輸出模塊:采用所選統(tǒng)計檢驗證法進(jìn)行假設(shè)檢義,并通過比較觀察到結(jié)果與初期設(shè)定閾值來判斷是否存在顯著差異。

完整ab測試系統(tǒng)數(shù)據(jù)流程圖如下圖所示。

三、應(yīng)用案例

基于Google多層實驗框架進(jìn)行線增ab測試評估體系的搭建,1年里累計支撐業(yè)務(wù)評估實驗1000+項。

本文由 @佑佑和博博~ 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
11770人已学习13篇文章
激活是指用户通过完成关键行为,真正成为产品的用户,而提升新用户激活则是留存用户的第一步。本专题的文章分享了如何做好新用户激活。
专题
19714人已学习18篇文章
物流仓储系统是实现物流高效运转的基础。本专题的文章提供了物流仓储系统设计指南。
专题
13138人已学习14篇文章
好的产品是对人性的窥视,无论是做产品,做运营,懂点心理学还是很有帮助的。本专题的文章分享了消费者心理学。
专题
12830人已学习17篇文章
在一些老系统可能会有流程复杂、扩展性不强的问题,此时便需要进行重构。本专题的文章分享了产品重构指南。
专题
15313人已学习12篇文章
服务设计在流程性和系统性的问题解决方面提供很好的思路和方法。本专题的文章分享了如何做好服务设计。