借助Canvas黑魔法,實現(xiàn)營銷增益模型Uplift Model
編輯導語:運營人員要如何結(jié)合數(shù)據(jù)分析,找到營銷敏感人群,提升觸達和轉(zhuǎn)化效果,降低營銷成本?不妨看看本文作者的案例剖析吧。在本篇文章里,作者結(jié)合Amazon SageMaker Canvas產(chǎn)品進行了營銷場景建模實踐,一起來看。
在后互聯(lián)網(wǎng)時代,隨著營銷成本的高漲,如何從存量人群中精準找到營銷敏感人群進行觸達,進而提高ROI一直是業(yè)務(wù)中重要的課題。
這樣的業(yè)務(wù)場景需求也同樣延伸到對數(shù)據(jù)分析師能力的考察上,例如有這樣一個高頻業(yè)務(wù)面試題:如果餓了么打算給用戶精準發(fā)券,如何預測哪些用戶會使用?
到業(yè)務(wù)層面討論問題,之所以要預測會使用優(yōu)惠券的人群,目的是在成本有限的前提下,使營銷產(chǎn)出最大化,而這關(guān)鍵的一點就是要找出真正被營銷打動的人,即營銷敏感型人群。
一、營銷增益模型理論
在數(shù)字營銷領(lǐng)域,有一個經(jīng)典的營銷增益模型uplift modeling,可以幫助我們達成該目標。
uplift模型根據(jù)營銷干預(比如優(yōu)惠券)和干預結(jié)果(是否購買)兩個維度把用戶分為四類:
- 營銷敏感人群 Persuadables:不發(fā)送優(yōu)惠券則不買,發(fā)送優(yōu)惠券則購買;
- 自然轉(zhuǎn)化人群 Sure things:不論是否發(fā)送優(yōu)惠券均會購買;
- 流失人群 Lost causes:不論是否發(fā)送優(yōu)惠券均不會購買;
- 反廣告人群 Sleeping Dogs:不發(fā)送優(yōu)惠券會購買,發(fā)送優(yōu)惠券反而不買。
為達到營銷轉(zhuǎn)化效率最大化,我們的思路就是識別出營銷敏感人群(Persuadables)群體,對他們發(fā)放優(yōu)惠券。
在討論如何找到營銷敏感人群之前,先來看看如何從數(shù)據(jù)層面定義這群人?因為數(shù)據(jù)預測是基于概率思維,所以可以把前面對人群的定義用概率替換:發(fā)券時,購買的概率大;不發(fā)券,購買概率小。進一步可以分別在發(fā)券以及不發(fā)券時計算期望收益,得到收益差。
這個收益差就是“增益”,增益越大,那就可以認為這個人受優(yōu)惠券的影響越大,也就是說該人是營銷敏感型的概率也就越大。
所以,以終為始來看最終要得到的模型是怎么樣的:
- 輸入用戶、以及是否給券的信息,輸出期望收益(消費金額);
- 把給券和不給券時的金額做差,就得到優(yōu)惠券對這個人的增益。
至此,我們就知道了模型的原理,現(xiàn)在需要去收集數(shù)據(jù)進行建模。但是又有一個問題:在同一場景下,我們是無法同時得到一個人給券時的消費金額和不給券時的消費金額。這是因果推斷中典型的反事實問題,該如何解決呢?
此時,我們要回歸到建模思維,這里的“人” 不是獨立的個體,而是一組特征集:比如都是25歲、男性、月均收入1w、居住在一線城市、未婚的小明和小亮,從營銷的角度,認為他們具有相同的畫像。從建模思維來說它們都是同樣的“人”。這樣我們就能得到同一個特征集的人,同時給券和不給券的期望收益。
OK,現(xiàn)在就可以從落地角度來看如何找到營銷敏感人群:
- 對人群進行分組,進行營銷干預測試,獲得樣本數(shù)據(jù)。
- 從業(yè)務(wù)層面出發(fā),對用戶特征進行討論。
- 基于1.中回收的數(shù)據(jù)及2.中特征,進行uplift Modeling。
- 預測用戶營銷屬性(屬于哪類人群)。
接下來結(jié)合業(yè)務(wù)數(shù)據(jù)集做落地實踐。
二、建模實踐 Uplift Modeling
1. 營銷干預測試獲得數(shù)據(jù)
從人群中抽取樣本(64000人)進行測試:對一半會員32040人發(fā)券,剩余31960人不發(fā)券。
一段時間后,回收數(shù)據(jù),結(jié)合現(xiàn)有會員標簽看看有什么數(shù)據(jù)可用:
具體對每個字段的解釋如圖所示。
2. 特征工程
使用pd.get_dummies()就能把數(shù)據(jù)中字符類型的分類數(shù)據(jù)進行獨熱編碼(one-hot encoding),形成如圖中的稀疏矩陣。
在理論部分, 我們說可以根據(jù)營銷干預(Treament)和干預結(jié)果(Response)兩個維度把用戶分為四類,但是在實際業(yè)務(wù)落地過程中,“反廣告人群”其實是很難檢測的,因此在給會員標記人群分類標簽時,根據(jù)反饋結(jié)果把人群分成以下四類:
- 營銷敏感人群 Persuadables | TR(Treament and Response),命名為0。
- 自然轉(zhuǎn)化人群 Sure things | CR(Control and Response),命名為1。
- 流失人群 Lost causes | TN(Treament and No-response),命名為2。
- 空白人群 | CN(Control and No-response),命名為3。
至此,我們就完成了特征工程,接下來進入建模階段。
3. Amazon SageMaker Canvas——機器學習建模
在理論階段,我們定義的營銷增益模型是用于預測給券后每個會員的增益,再圈選出增益最大的那部分人群定義為營銷敏感人群。
在實際落地時,有一種更簡單的邏輯,就是直接針對每個會員的特征,判斷該會員是屬于哪個人群,一步到位,然后對營銷敏感人群進行營銷即可。
在機器學習模型中,這屬于多分類模型(Multi-class classification),也就是說,建模的邏輯是輸入會員特征(features),輸出分類標簽(人群分類:TR | CR | TN | CN)即可。
features = [‘消費休眠天數(shù)’,? ‘累計消費金額’,? ‘曾使用優(yōu)惠券’,? ‘曾使用買一送一券’,? ‘人群分類’,? ‘所在區(qū)域_農(nóng)村’,? ‘所在區(qū)域_城市’,? ‘所在區(qū)域_郊區(qū)’,? ‘注冊渠道_手機端’,? ‘注冊渠道_線下門店’,? ‘注冊渠道_網(wǎng)頁端’]
基于標準的機器學習流程,到這一步,我們需要進行模型選擇、調(diào)參:
- 模型選擇:可以實現(xiàn)多分類的模型有很多,例如邏輯回歸、決策樹、隨機森林、XGBoost等,需要對不同模型的預測效果作評價對比,選擇最終落地部署使用的模型;
- 調(diào)參:可以借助GridSearchCV工具幫助調(diào)參,但是這個過程往往也是最消耗時間、精力的流程。
其實這兩個步驟在實操中屬于較為機械、重復的步驟,為了提高效率,這里我使用亞馬遜云科技的黑魔法:Amazon Sagemaker Canvas來實現(xiàn)。
① 上傳數(shù)據(jù)
將在特征工程階段形成的數(shù)據(jù)集拆成建模數(shù)據(jù)集(train)和驗證數(shù)據(jù)集(valid)。把建模數(shù)據(jù)集上傳到Canvas后,它可以自動呈現(xiàn)出各字段的描述,幫助判斷數(shù)據(jù)的有效性。
在Target Column中選擇輸出的標簽:人群分類,Canvas能自動識別輸入與輸出之間的關(guān)系,例如在這個案例中,Model type部分就自動選擇了多分類模型。不必再擔心模型選擇恐懼癥。
② 建模分析
完成數(shù)據(jù)設(shè)置后,就可以進行建模(Standard build),因為Canvas會自動對模型參數(shù)進行調(diào)優(yōu)(終于擺脫了被調(diào)參支配的恐懼),所以整個建模的過程耗時比較久。
本案例中,建模數(shù)據(jù)集一共是7.7萬行,11個特征,建模+調(diào)參的過程花費了3個小時。不過這個過程完全是在云端進行,絲毫不影響本地電腦進行其他任務(wù)(擺脫了以往在本地建模時不敢亂動的苦惱)。
最后生成的模型效果也很好,準確率達到了85%,Canvas會把不同特征在模型中的重要性列出來。在我看來,業(yè)務(wù)實戰(zhàn)中機器學習建模的重點除了在模型本身之外,還在于“可解釋性”,而這里呈現(xiàn)的特征重要性(Column impact)能幫助分析師在業(yè)務(wù)層面得到共識認可。
③ 預測
完成建模后,把驗證數(shù)據(jù)集上傳到Canvas,檢驗模型對新數(shù)據(jù)的預測準確性與泛化能力。
得到的預測結(jié)果如圖,自動把每個會員歸類到不同的人群標簽,及給出對應(yīng)的概率值。
4. 模型評價
對落地而言,評價營銷增益模型的好壞在于是否能幫助業(yè)務(wù)增長。
從這個角度,可以借助IRR和NIR指標進行評價:
- IRR (Incremental Response Rate, 營銷增益響應(yīng)率) :用于衡量營銷活動帶來的購買率,也就是假設(shè)我們營銷活躍嚴格按照模型給出的人群建議進行營銷,最終目標人群中購買人數(shù)的比例 減去 非目標人群中購買人數(shù)的比例(即自然購買率),就認為是營銷增益模型帶來的增益。
- NIR (Net Increment Revenue 凈增量收入) :計算營銷活動帶來的收益(假設(shè)商品利潤是10元,邊際營銷成本是0.15元)。
計算結(jié)果如圖,表示如果嚴格按照模型給出的目標人群進行營銷,最終能帶來的增益是 +18.98%,即2357.65元。
但是這個模型的結(jié)果是好是壞還需要有一個標準來做衡量,在實際業(yè)務(wù)中采用“通發(fā)”的策略作為基本策略(Baseline),計算結(jié)果如圖,通發(fā)策略只帶來了+3%的增益,與1771元。
明顯,此次通過Amazon Sagemaker Canvas黑魔法進行開發(fā)的營銷增益模型效果顯著。
三、產(chǎn)品體驗
在機器學習建模流程中,重業(yè)務(wù)邏輯的部分主要集中在數(shù)據(jù)清洗、特征工程環(huán)節(jié),真正建模、調(diào)優(yōu)的過程大部分情況下是比較機械、但難度高、耗時長,亞馬遜云科技把這部分繁瑣的工作單獨提出來打造成Canvas數(shù)據(jù)產(chǎn)品,能極大提高數(shù)據(jù)分析師建模效率的同時,能讓分析師把更多精力放在重要的業(yè)務(wù)邏輯構(gòu)建上。
餅干哥哥用過同類型的國內(nèi)某電商平臺的A產(chǎn)品。對于測試樣本比例、模型選擇、模型參數(shù)等,A產(chǎn)品需要使用者需要耗費較多精力進行測試,但是它卻無法提供線上的Gridsearch CV能力,所以使用起來成本較高,非常依賴經(jīng)驗。
A產(chǎn)品界面
對比而言,Amazon SageMaker Canvas的使用及界面都是極簡風格,它把復雜的模型選擇、調(diào)參等過程自動化處理,使用者只需關(guān)注輸入前的特征工程,以及模型的預測落地即可。不僅是數(shù)據(jù)分析師,連運營業(yè)務(wù)、產(chǎn)品經(jīng)理等人群不需要掌握復雜的算法原理、甚至是無需代碼都能輕松完成精準的模型開發(fā),極大降低了機器學習的門檻。
最后,雖然Amazon SageMaker Canvas有提供諸如混淆矩陣及準確率、召回率、F1值、AUC值等評價指標,但例如在此次實操案例中,需要的評價指標是更靠近業(yè)務(wù)的計算邏輯,因此,如果Amazon SageMaker Canvas可以開放自定義驗證/評價邏輯的能力,能或許可以更好地幫助完成模型在業(yè)務(wù)落地的“最后一公里”。
本文由 @餅干哥哥 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
還沒有試過用可畫做ppt欸,下次可以試試,感覺非常的方便和現(xiàn)代化。
餅干分析的很詳細專業(yè)性很強,就是代碼不太明白看不懂!