不適合做AB實驗的場景下,如何做出有品質(zhì)的產(chǎn)品決策?

0 評論 3048 瀏覽 12 收藏 13 分鐘

雖然AB實驗是一種很直接、公正又簡單的產(chǎn)品驗證方式,但在現(xiàn)實中無法做A/B Test的情況又蠻常見,這種情況下該如何做出合理的產(chǎn)品決策呢?本文作者整理了一些AB實驗之外的產(chǎn)品驗證方法或流程,希望能給你帶來一些幫助。

雖然AB實驗是一種很直接、公正又簡單的產(chǎn)品驗證方式,能夠協(xié)助 PM 們通過數(shù)據(jù)進(jìn)行決策,但在現(xiàn)實中其實「無法做 A/B Test」的情況又蠻常見,在這些情況下我們該怎么依然有憑有據(jù)的做出合理產(chǎn)品決策呢?

我整理了一些AB實驗以外的產(chǎn)品驗證方法或流程,希望能幫助大家通過數(shù)據(jù)決策。

01 哪些狀況不適合AB實驗?遇到這些狀況該怎么辦?

除了公司沒資源沒有實驗架構(gòu)、老板不給時間這些原因以外,這四種情況也不太適合做AB實驗,以下隨場景附上推薦的解決方案:

狀況一:流量太低

當(dāng)產(chǎn)品每天只有千位甚至百位活躍用戶,A/B Test 分組下去一組只剩幾百甚至幾十人,這樣的情況通常不適合做那種改一點按鈕顏色、改一點文字翻譯的小步快跑 A/B Test,因為如同大家所知,樣本太少時并不容易達(dá)成統(tǒng)計上的顯著。

推薦方法:定性研究為根基的「大步跑」

一個 A/B Test 若樣本數(shù)多、產(chǎn)品改動的影響大、時間跑得長,就越容易達(dá)成統(tǒng)計上顯著。所以其實低流量也不是什么問題,只是那些線上樣本計算機會跟你說「你的實驗只要跑 5487 天就會有顯著結(jié)果哦!」。

現(xiàn)實中我們當(dāng)然不可能乖乖等 5487 天,通常都希望在幾周內(nèi)可以看到結(jié)果,才好做下一步的產(chǎn)品規(guī)劃,所以這個時候我們可以盡量把產(chǎn)品改動的規(guī)模擴大做大,放棄小步快跑來個大步跑,若帶來的影響夠大,自然也會更容易達(dá)成統(tǒng)計上的顯著。你可以試試這樣做:

  • Step 1:為了降低大改帶來的風(fēng)險,執(zhí)行扎實徹底的用戶研究。
  • Step 2:規(guī)劃大改動(例如整頁信息架構(gòu)調(diào)整,前后流程調(diào)整等等)。
  • Step 3:改動上線后通過其他反饋工具來做驗證,例如使用 NPS 工具,在產(chǎn)品內(nèi)嵌入簡單的問卷表單,與客服協(xié)作獲得反饋等。還是可以試著跑跑看 A/B Test,如果效果不錯影響面夠大也是可以獲得統(tǒng)計上顯著的。
  • Step 4:若還是想得到量化信息,可以考慮在未來產(chǎn)品流量提升之后,進(jìn)行 Blackout Experiment 來觀測。所謂 Blackout,就是將某個已上線的改動或功能在實驗中暫時關(guān)掉,看看這些改動或功能是否真的有影響。

除了這種「扎實版大步跑」以外也有一些其他方法手段,我會在下一大段落中一并分享其他在低流量產(chǎn)品身上也能使用的產(chǎn)品實驗設(shè)計方法,有興趣的朋友可以滑動到底下閱讀。

狀況二:ToB 產(chǎn)品

當(dāng)你的產(chǎn)品用戶非一般消費者、而是天天要用你的產(chǎn)品工作的「專業(yè)使用者」或企業(yè),比如說用 POS 系統(tǒng)點餐的餐廳店員、用飯店管理工具后臺確認(rèn)訂房付款狀況的飯店柜臺等等,他們已經(jīng)習(xí)慣按鈕顏色、位置、功能,需要一致的體驗,可能也經(jīng)不起你三天一小改五天一大改、無法預(yù)期的產(chǎn)品實驗。

推薦方法:利用 Beta program 進(jìn)行快速回饋與溝通

可以試著和幾個關(guān)鍵用戶討論看看他們是否愿意加入「新功能搶先用的」 Beta program,以他們?yōu)橹饕脩粞芯繉ο?、訪談、規(guī)劃與開發(fā)產(chǎn)品,開發(fā)后的新功能與改動再先利用 Beta program 上線,以獲取早期回饋。

等到這些功能與改動比較成熟穩(wěn)定,再開始對其他用戶做中大型規(guī)模的 A/B Test 來做最后的驗證。這樣的話就可以降低對用戶的干擾程度,也較好對 Beta program 用戶們做預(yù)期管理。

狀況三:新產(chǎn)品

新產(chǎn)品除了跟流量低的產(chǎn)品有相同問題以外,相較于成熟產(chǎn)品,MVP 和理想的商業(yè)模式通常差比較遠(yuǎn),產(chǎn)品本身體驗和用戶真正的需求落差也可能更大,在這個時候若還堅持每次只改動一個變量、慢慢用 A/B Test 當(dāng)成唯一驗證手段,或許也不是最有效率的方式。

推薦方法:定性研究與規(guī)律用戶測試為王

在新產(chǎn)品的階段,基本上和狀況一的低流量一樣,需要更多市場研究、用戶研究、競品研究等信息來提供洞見,以及通過反饋工具與客服狀況來了解上線后的效果。

尤其在 MVP 開發(fā)階段,由于產(chǎn)品根本還沒上線也毫無 A/B Test 的可能性,建議安排規(guī)律的(每個月或甚至每周)User Testing,利用手邊的原型去獲得早期回饋再來做產(chǎn)品調(diào)整,就不用等到上線之后才崩潰的發(fā)現(xiàn)都做得不對。

另外以早期產(chǎn)品來說,除了易用性與功能,也建議要持續(xù)驗證整個產(chǎn)品的商業(yè)模式,打好基礎(chǔ),同時收集能夠應(yīng)用在未來產(chǎn)品路途上的信息。

狀況四:難以測量的體驗或易用性提升

在大部分情況下,提升易用性、增加便利性還是可以被測量的,但我之前曾遇過一個我真的不知如何測量的狀況:我們想改善照片編輯 App 的操作手勢,我和設(shè)計師在長按、雙點擊、一長一短點擊這種常見手勢該搭配什么對應(yīng)功能之間糾結(jié),長按該把照片往底部推?還是編輯照片?還是拉到最上層?這個其實我到現(xiàn)在還沒想到可以跑 A/B Test 的方法(有想法的朋友歡迎跟我分享),因為這件事的驗證牽涉到用戶手勢意圖,是數(shù)據(jù)很難告訴我們的信息。

推薦方法:大樣本定性研究

一般的用戶研究會測試五位用戶左右,因為根據(jù)研究計算,只要測試五位用戶就可以看出行為模式、涵蓋大部分的痛點。這里我所謂的大樣本是指比平常用戶研究數(shù)量還多兩三倍的d研究,之前的經(jīng)驗是我們從咖啡廳、路上、辦公室等地對 10–20 位用戶做了易用性測試,確實記錄每個動作、手勢、使用流程與背后的動機和意圖,再畫成表格比較優(yōu)缺點。

在做這件事情的時候一定要很小心,確保:

  1. 受測者涵蓋你的目標(biāo)用戶區(qū)隔
  2. 詢問的方式不帶引導(dǎo)性
  3. 詳細(xì)記錄比較用戶的意圖以獲得最公正的信息。

02 六招低流量產(chǎn)品也適用的產(chǎn)品實驗設(shè)計方法

如果你的產(chǎn)品整體其實有些流量,但你只負(fù)責(zé)一部分的產(chǎn)品或注重某個國家或區(qū)域,這里提供六個步驟幫助你設(shè)計一個「測得出結(jié)果」的 A/B Test:

1. 找流量

哪里有流量就往哪里實驗!可以合并不同的用戶區(qū)隔增加樣本數(shù),或者選擇在產(chǎn)品流量較大的頁面做實驗。(以電商為例,可以盡量在流量較多的如落地頁、搜索結(jié)果頁驗證你的產(chǎn)品假設(shè),避開那些結(jié)算流程的末端)

2. 將統(tǒng)計功效(Statistical Power)納入優(yōu)先級的考量

在排優(yōu)先級時,選擇樣本數(shù)多、Base conversion 低、預(yù)估影響力大這些「能夠被 A/B Test 驗證的」功能??梢岳镁€上的統(tǒng)計樣本計算機,先設(shè)定自己「最多可以接受實驗跑多久」的目標(biāo)再反過來計算需要的樣本數(shù)。記得在做這件事情之前,要先向伙伴說明為何實驗很重要、為何統(tǒng)計顯著很重要等等,讓團(tuán)隊都可以理解排序背后的意義。

3. 以創(chuàng)造更大效益為目標(biāo)擴大改動規(guī)模

停止那些改一點按鈕顏色、改一點文字翻譯的小步快跑 A/B Test,以創(chuàng)造更大效益為目標(biāo),花時間去研究怎么開發(fā)中大型但有意義的改動。但同樣的這個做法風(fēng)險也比較高,記得搭配扎實的事前準(zhǔn)備與研究來使用。

4. 把時間和資源移到開發(fā)前的研究與早期驗證

既然數(shù)據(jù)還無法提供證據(jù),那就用定性研究與反饋來了解用戶行為與動機,這些洞見同時也可以成為產(chǎn)品長大后很好的實驗素材。

5. 延長實驗時間

如果可以接受,也可以將實驗時間設(shè)定比較長,一樣可以用上面提過的樣本計算機得出合理 Runtime。但記得跑多久這件事一定要在實驗開跑前就規(guī)劃好,一旦確定,就算提早看到成效也不要把實驗提早結(jié)束,也不要為了看到結(jié)果就無限延長,因為那都很有可能是錯誤的結(jié)果。

6. 重新思考目標(biāo)指標(biāo)

如果 A/B Test 中的主指標(biāo)一直不見效,有可能是因為指標(biāo)本身很難撼動,可以試著找找其他較容易觀察成效的先行指標(biāo)。但這件事情跟方法五一樣,也最好在實驗前就先規(guī)劃好,不然如果只是到處翻找顯著改善的數(shù)據(jù)指標(biāo),一樣很有可能是錯誤的。

03 結(jié)語

其實在不能做 A/B Test 的情況下,許多的替代方案都是結(jié)合定性研究、反饋收集來獲得決策需要的「證據(jù)」。

一個有品質(zhì)的產(chǎn)品決策,最重要的就是有清晰的脈絡(luò)與有說服力的原因來告訴你的團(tuán)隊、你的主管和你的用戶「為什么」這是個正確的決定,而這些原因都必須要被某種公正證據(jù)支撐著。PM 或設(shè)計師所要做的,其實也就是因應(yīng)不同狀況、找到對的工具、收集足夠的信息來做合理決策。

就說這么多。

專欄作家

駱齊,公眾號:駱齊,人人都是產(chǎn)品經(jīng)理專欄作家。分享產(chǎn)品思維、商業(yè)思維、職場之道、個人成長相關(guān)內(nèi)容。拉開人生差距的是你的認(rèn)知深度。用文字釀一杯紅酒,和你共飲,回味悠長。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!