一文讀懂策略產(chǎn)品必須知道的AB&AA實驗全流程
科學的AB實驗在搜索、推薦以及廣告系統(tǒng)中,是驗證策略升級或者樣式改版的重要收益評估手段,沒有科學的AB實驗構建就無法全量上線產(chǎn)品策略,更無法評估策略產(chǎn)品的核心工作價值。本文作者對AB實驗的流程進行了分析,一起來看一下吧。
今天來繼續(xù)更新一下策略產(chǎn)品經(jīng)理在思維上的另一個重要思維方式——AB/AA實驗思維??茖W的AB實驗在搜索、推薦以及廣告系統(tǒng)中都是驗證策略升級或者是樣式改版的重要收益評估手段,沒有科學的AB實驗構建就無法全量上線我們的產(chǎn)品策略,更無法評估策略產(chǎn)品的核心工作價值。
因此,我希望幫助大家解答與回復策略產(chǎn)品面試當中的高頻實驗設計與實驗回溯問題,如何培養(yǎng)AB實驗思維,領路大家快速在策略產(chǎn)品領域成長。
一、什么是AA&AB Test實驗——常見的實驗分類
互聯(lián)網(wǎng)無處不再的AB實驗
1. 前言背景
如上圖所示,這是目前各大互聯(lián)網(wǎng)公司會經(jīng)常對用戶進行功能/交互樣式進行實驗的場景,會針對不同的分流人群進行樣式A(當前頁面)和樣式B(升級后的頁面)的效果驗證,通過制定明確的實驗指標,來進行一定周期的觀察,通過科學的實驗結果得到最后實驗組中升級后頁面是否可以帶來平臺目標增益,這個概念就是我們常說的AB實驗。
AB和AA實驗無論是策略產(chǎn)品還是C端B產(chǎn)品都經(jīng)常會用到的效果評估工具,同時也是策略產(chǎn)品和算法產(chǎn)品功能和算法策略升級的工作價值驗證手段。2000年,Google工程師將這一方法應用在互聯(lián)網(wǎng)產(chǎn)品測試中,此后AB實驗變得越來越重要,逐漸成為互聯(lián)網(wǎng)產(chǎn)品運營迭代科學化、數(shù)據(jù)驅(qū)動增長的重要手段。無論是推薦系統(tǒng)在召回中多增加一路召回類型、修改歸一化召回的比重,還是增加多目標排序優(yōu)化方式,亦或者是前端創(chuàng)意樣式的變更都離不開科學的AB實驗驗證。
2. 主流的實驗分類
1)AA 實驗法
AA實驗的原理即是實驗組和對照組的實驗配置完全一樣,通過前后周期(空跑期和試驗期)驗證測試本次實驗效果的波動性和效果。一般AA實驗會用在時間周期內(nèi)(平日、大促期間)消費者用戶或者是廣告主行為的實驗類型。
例如京東APP大促雙十一空跑期和試驗期未上線任何策略升級,希望驗證京東消費者用戶的人均曝光的商品數(shù)量(消費者更愛逛)、推薦位商品點擊率等等。如果純粹使用AA實驗法則來驗證策略和功能升級無法帶來最直接置信的實驗效果影響,因為最終實驗會受到試驗周期以及其他環(huán)境變化帶來的影響無法帶來置信的結果。
AA實驗示意
2)AB 實驗法
假設A為實驗組,則B表示為對照組。一般表示實驗組A實現(xiàn)了產(chǎn)品功能的變更/策略的升級對比對照組B(無功能/策略變更)得出本次實驗的驗證結論。AB Test驗證可以是單一變量也可以同時有多變量實驗。例如,在推薦系統(tǒng)中分別優(yōu)化了一版召回模型策略+前端創(chuàng)意展示模型策略的疊加升級,點擊率相較于對照組提升5%,這只能說明兩者策略疊加帶來了累計的效果,無法拆分出單獨的排序模型策略和創(chuàng)意展示模型策略的結果,就不容易細化模型的效果(有可能是兩者相互之間影響的結果)。
一般流量或者機器實驗不緊張的情況下我們都會采用單一變量實驗的法),保證最終AB結果的結果的置信程度。AB test實驗階段一般都是小流量實驗(例如5%的流量桶),具體請求/用戶uv數(shù)量視平臺流量數(shù)據(jù)置信規(guī)模而定,在完成置信實驗結果之后再對實驗組功能策略完成推全。
二、以AB實驗舉例,策略產(chǎn)品搭建AB實驗的流程
接下來我們以AB實驗來舉例詳細介紹AB實驗前中后的每一個步驟。
策略產(chǎn)品AB實驗前中后全流程關鍵點說明
1. 實驗前部分
1)確認實驗目的
實驗目的核心就是實驗探究的核心內(nèi)容。比如在上述案例中對于京東APP推薦位樣式的改版對于用戶行為的影響(比方說用戶對于APP推薦位商品的瀏覽深度、點擊商品數(shù)等等),這些行為會被量化成為客觀的指標例如點擊率CTR、人均曝光商品數(shù),這個就需要結合實驗觀察核心指標來分析了。確認完成核心的實驗目的,我們在考慮后續(xù)的實驗變量內(nèi)容、觀察的指標以及如何做分流和最終的效果。
2)設計實驗方案
設計實驗方案是實驗中是整個ABtest實驗最為核心的部分,因為不科學的實驗前置設計方案和依賴條件可能會導致AB實驗結果的背道而馳。因此,設計實驗方案核心關注包括選擇實驗觀察指標、確定實驗變量維度、規(guī)劃流量分配、隨機抽樣算法、設定試驗周期。
實驗設計中的關鍵點
3)設計實驗方案
為了全面衡量策略的效果,觀察指標往往會設定“過程性指標”、“結果性指標”,過程性指標在實驗過程中作為輔助評估置信或者最終效果達成輔助效果評估,結果性指標為最終結果目的指標,用來直接反應實驗效果。這里我們來舉個例子,如果我們檢測一個廣告平臺出價模型調(diào)控策略最終是否能帶來廣告消耗cost的增長。
過程性指標:
- 輔助置信評估指標:需要關注到pv、click等指標量級,例如我們認為5%的流量桶需要達到1W 的click點擊量才認為實驗結果置信,才可以認為廣告的CPC處于穩(wěn)定狀態(tài)。
- 輔助性效果達成指標:廣告消耗cost是需要進行計算拆分的,其最終需要被拆分成PV * CPM/1000,或者是CPC*Click,那么CPC和CPM就會是輔助達成廣告收入需要觀察的指標,下鉆分析CPM、CPC效果的提升多少。
結果性指標:最終為實驗目的服務的核心指標,例如廣告平臺上線對應的出價策略就是希望能通過激進的出價算法能在客戶ROI不變的情況下帶來收入cost的增長,這就是最終實驗的目標。
當然,在實際工作過程中,我們?yōu)榱搜芯亢妥C明策略探究的價值,往往在做實驗假設的時候根據(jù)過往經(jīng)驗提前預估帶來的效果提升范圍,比如說點擊率提升3~5%之間,粗估出價調(diào)控策略帶來的影響。
4)設計實驗方案
實驗變量維度其實就是確認實驗的確認實驗組和對照組中不一致的功能或者策略,其中包含單一變量和多變量實驗。
騰訊廣告拆分對比實驗工具示意
- 單一變量實驗:指在整個實驗中只存在唯一對照變更的策略和功能內(nèi)容,不存在多個變量在整個實驗的交織影響。例如廣告出價方式策略用強化學習(RL)代替PID控制策略對于大盤ppc和預算使用的影響,此時便不會把創(chuàng)意或者定向優(yōu)化策略也摻雜其中。
- 多變量實驗(又稱自由變量實驗):指在實驗中包含兩個或者兩個以上的變更策略和功能內(nèi)容,對實驗整體處于疊加交織影響,最終看的是多變量整體交叉帶來的效果。但是多變量實驗的弊端也非常明顯,無法直接下鉆分析具體某個策略的影響,最后實驗負向也不知道是具體哪一塊策略升級帶來的效果,策略產(chǎn)品做實驗中使用頻次較少。
5)實驗維度&規(guī)劃流量分配
首先,我們來說說實驗維度維度部分,規(guī)劃維度包含請求展現(xiàn)pv維度和請求用戶uv維度兩種維度類型實驗,兩者之間的應用場景和分流特點如下所示。
實驗維度分類
其次,我們來看看規(guī)劃流量分配維度,在AB實驗中,我們一般包含分流模型和分層模型兩種類型規(guī)劃全局流量。
分流模型實驗和分層模型實驗詳解
- 分流實驗:互聯(lián)網(wǎng)最早的方式就是采用的分流模型,按流量桶的形式進行實驗隔離,實驗之間互斥。但是這種實驗的弊端非常明顯,因為流量桶不能無限分下去,對于互聯(lián)網(wǎng)大廠字節(jié)抖音、阿里淘寶肯定每天都存在成千上百組策略、功能實驗,如果都需要做分流模型實驗再打的流量池也無法滿足無限分桶的實驗訴求。
- 分層模型:分層模型主要是在分流模型給的基礎上,可以針對同一個用戶的進行多個不同類型的實驗,層與層之間的的流量相互正交,流量請求從實驗B到實驗C,從實驗C到實驗D都會被再次隨機打散分配到不同的桶中,消除策略策略之間的疊加影響,假如每一層中80%的流量都用來正交,理論上實驗分層可以無限分下去。
字節(jié)跳動副總裁楊震原在火山引擎技術開放日上描述到:“字節(jié)現(xiàn)在每天都會新增1500個實驗,累計做了70萬次實驗”。如何在全局有限的流量下,充分利用流量,就會使用部分流量參加多個實驗。利用流量分層模型,達到每層實驗之間的互斥關系,保證實驗A、實驗B與實驗C都不產(chǎn)生相互影響。
6)隨機抽樣算法
講完如何分流和分層之后,怎么把流量pv或者用戶uv分到對應的桶&層中就至關重要了。為什么這么說呢?舉個簡單例子,如果我們把淘寶88VIP高消費重度推薦位“閑逛”用戶都分到實驗組中,把低活躍低消費用戶都放到了對照組中,然后在上線一個增加推薦系統(tǒng)新穎性的策略,實驗結果是實驗組的人均曝光商品數(shù)遠高于對照組,得到策略生效,這個邏輯顯然是錯誤的。因為人均商品曝光數(shù)是用戶本身的差異屬性帶來的,而不是策略帶來的。基于此,我們在實驗中就誕生了以Hash分桶為核心的隨機抽樣算法,按照一定的規(guī)則分配到不同的實驗組和對照組中,達到流量分配的比例。
Hash函數(shù):將輸入的 Key (這個key在大廠中一般將用戶的設備device id或者是用戶user id)散列為隨機值(CR),依賴于 Hash 函數(shù)的特性來保證隨機分流的均勻性。CR 的優(yōu)點是速度快,大部分情況下均勻性能夠滿足要求。然而,缺點是在樣本量有限的情況下,無法保證多個桶之間的結構是一致的。常見的Hash函數(shù)包含MD5、CRC、MurmurHash、CityHash以及SpookyHsh等,主要差異在于生成的散列值位數(shù)(32、64以及128bit)和性能適用于不同的場景和實驗當中。
自適應分組算法:自適應分組算法利用已分配和當前待分配的樣本,通過評估已分配樣本的分組和結構情況,實時改變當前待分配樣本對不同組的分配概率。主要是通過:
- 初始化分組樣本:人群隨機打亂,對于對當前2*K組個人進行隨機分組,保證每個組至少有兩個樣本,然后開始Adaptive分組。
- 判斷直接或者間接分配:算法計算各組已分配樣本數(shù)和組所占比例之間的關系,得到各個組的平衡系數(shù)BS。如果各個組的比例平衡系數(shù)相差較大,則進行直接分配,以粗粒度的方式調(diào)整各組的分配比例。如果平衡系數(shù)相差不大,則使用接下來的指標分布計算,決定使用哪個組的間接分配概率。
- 計算分組與分配得分:算法計算將要分配的一個樣本,如果分配到組k后,組k的指標分布得分MS_k,其中MS是根據(jù)ANOVA模型計算出來的每個組在各個觀察指標上的均值和方差情況。通過比較各組的MS,選出向下偏離平均水平的組,并以該組的間接分配概率作為各個組本樣本的分配概率。
7)確認實驗周期
確認實驗周期最為核心的點就是保證實驗的置信度。
第一點,需要保證實驗周期內(nèi)累加的5%流量分桶的pv、uv流量能達到實驗置信的門檻值,門檻值依據(jù)平臺的推薦位整體流量大小而定,需要保證換算指標CTR、CVR或者ROI等,基礎正向樣本是達到置信門檻量級。(例如大廠的實驗策略一般都是1~2周,可能流量偏少的中小廠則需要更長時間積累置信數(shù)據(jù))
第二點,避免遇到電商618、雙11大促流量徒增、或者是實驗桶中用戶行為波動的周期,如果實驗周期安排在大促周期范圍內(nèi),容易導致前期的抽樣流量分組、客戶分組失效,實驗中的用戶行為差異較大,會導致實驗結果不置信的問題。
因此,確認實驗周期需要根據(jù)平臺和流量分桶百分比來確定實驗周期的長短,其次還需要根據(jù)平臺流量和營銷活動的安排盡量避開流量波動幅度大(流量保障、流量暴跌),以及用戶行為變化較大的周期,保證實驗的平緩和置信程度。
2. 實驗中部分
當AB實驗上線后,我們需要緊密觀測實驗指標,判斷實驗實驗小流量期間上線實驗的平穩(wěn)、效果波動問題,這個地方就需要和前文的實驗假設效果部分相互 。我們可以從以下三個角度進行觀察:
1)收集實驗數(shù)據(jù)
AA實驗情況:收集實驗數(shù)據(jù)即需要觀察實驗AA組在空跑期、試驗期間的變化幅度是否平穩(wěn),正常情況下應該不會出現(xiàn)明顯的波動差異。如果出現(xiàn)明顯的差異效果需要考慮是否隨機抽樣流量和用戶采集有問題,應該查找原因并且暫停實驗。否則實驗組與對照組結果會存在不置信的問題。
AB實驗情況:在實驗周期前的參考周期(類似AA中的空跑期),關鍵實驗目的指標保證平穩(wěn),實驗期出現(xiàn)變化,如果本身參考期內(nèi)實驗組和對照組diff很大也與隨機抽樣算法有著偌大的關系。觀察每一天實驗組和對照組之間過程指標、關鍵指標的效果diff值是否符合預期。如果某些關鍵指標例如廣告收入cost或者是人均消耗arpu出現(xiàn)明顯下降問題也需要暫停實驗。
2)保證實驗平穩(wěn)
用戶/流量分桶情況:如果是用戶維度的分桶實驗保證每個桶的用戶hash值具備唯一性。
新增實驗正交不影響:需要時刻關注在你實驗基礎上的新增分層模型實驗是否流量/用戶正交,策略是否對你的實驗效果產(chǎn)生明顯的影響。
3. 實驗后部分
1)量化評估實驗結果
①平均值效果評估
實驗結果評估中,較為常見的統(tǒng)計值計算就是平均值計算,例如我們一般看到廣告策略實驗組和對照組效果指標例如ctr/ppc的增長,只能代表統(tǒng)計概念的平均值效果,通過平均值可以得出映射在小流量實驗擴全之后對大盤的平均值增益的影響。
②統(tǒng)計學顯著評估
統(tǒng)計學上還有實驗的顯著值評估,一般用P值表示,其代表的意義是hash隨機抽樣分組后,實驗組90%以上的用戶相較于對照組的對比都是正向,在統(tǒng)計區(qū)間范圍內(nèi)都落在正向區(qū)間,這證明不光平均值正向,并且實驗結果在離散統(tǒng)計概念上都是正向的,這個就是我們所說的策略AB實驗中的24K純正向效果。
2)小流量實驗部分推全與“Hold back”預留
實驗部分推全:前面的平均值和統(tǒng)計值如果評估正向,一般會走公司集團內(nèi)部的審批,通過郵件的形式、審批流程的形式完成對相關方的周知,就會對5%小流量進行策略進行線上全量,使得實驗策略能夠?qū)ζ脚_的每一次流量請求/用戶都可以生效。
長期Holdback預留:但是在推全前都會預留一個小流量實驗桶,我們叫Hold back,該實驗會保持長周期的觀察例如一個月的穩(wěn)定觀察,排除因為時間周期或者其他因素帶來的實驗干擾,同時也便于后續(xù)線上問題、事故進行回退,長周期正向效果驗證完成后即可進行真正的推全。
三、關于AB/AA實驗的總結
撰寫本文的出發(fā)點是基于目前業(yè)界對于專業(yè)從頭到尾詳盡的AB實驗流程,思考的文章介紹的偏少,而科學的AB實驗是策略產(chǎn)品經(jīng)理在日常工作中驗證策略帶來的業(yè)務收益重要手段,所以作者從自己過往工作經(jīng)歷、總結思考出對于策略產(chǎn)品科學AA和AB實驗的全流程,幫助大家了解科學AA&AB實驗的過程。
無論是晉升答辯、跳槽面試,AB實驗得到的置信結果一定都是繞不開的重要話題,也是壓力面試最喜歡的切入點,因為這是對策略產(chǎn)品價值產(chǎn)出的標尺和裁判員,策略產(chǎn)品協(xié)同算法對于策略&功能升級的價值產(chǎn)出需要通過實驗得到最終的結果,希望所有策略產(chǎn)品都清晰的熟知關于AA和AB實驗的全流程。
本文由 @策略產(chǎn)品Arthur 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。
感興趣策略產(chǎn)品可關注作者主頁的薇進行交流
學到了
感謝回復 歡迎多多交流