用戶行為洞察,讓推薦算法精準(zhǔn)到爆!
推薦算法”是目前比較火的個性化推薦,常用于互聯(lián)網(wǎng)電子商務(wù)、社交媒體、在線視頻和音樂服務(wù)等領(lǐng)域。這些算法通過分析用戶的歷史行為數(shù)據(jù)(如購買歷史、瀏覽記錄、評分和搜索習(xí)慣等),來預(yù)測用戶可能感興趣的產(chǎn)品或內(nèi)容,并據(jù)此提供個性化推薦。
機器學(xué)習(xí)的一般思路“通過對一部分?jǐn)?shù)據(jù)進行學(xué)習(xí),對另外一些數(shù)據(jù)進行預(yù)測與判斷”。而推薦算法是推薦系統(tǒng)中的核心和關(guān)鍵,推薦算法的選擇決定了推薦場景、系統(tǒng)性能。
01 常見的推薦場景有三種
1) 個性化推薦。
例如,線上商城的“千人千面”、內(nèi)容型App的信息流,push信息流等。
2) 熱門推薦。
例如,視頻App上的“熱播”、電商網(wǎng)站上的“熱榜”。
3) 相關(guān)推薦。
例如,線上商城的“看了又看”“買了還買”,視頻App上的“相關(guān)電影”。
“Better Algorithm or More Data(更好的算法還是更多的數(shù)據(jù))?”很多時候,能夠快速改善模型性能的不是調(diào)優(yōu)參數(shù),而是糾正其使用的數(shù)據(jù)。
業(yè)界廣泛流傳著一句話:“數(shù)據(jù)和特征決定了機器學(xué)習(xí)的上限,而模型和算法只是逼近這個上限而已?!?
下圖是推薦算法建模的簡化流程。
簡單來說,推薦算法建模主要包括輸入、訓(xùn)練、輸出三個階段。
- 輸入階段需要采集原始數(shù)據(jù),通過特征工程處理成可供模型訓(xùn)練的特征。
- 訓(xùn)練階段需要選擇合適的推薦算法訓(xùn)練特征。
- 輸出階段需要將用戶特征灌入模型,獲得用戶的推薦結(jié)果。
數(shù)據(jù)常被比作原材料,而推薦算法則是加工廠,原材料的質(zhì)量、數(shù)量直接決定了訓(xùn)練結(jié)果的質(zhì)量。
數(shù)據(jù)的劃分一般有三種方式
1) 根據(jù)產(chǎn)生的數(shù)據(jù)源,可以劃分為用戶行為、用戶屬性、社會網(wǎng)絡(luò)、用戶即時場景(上下文)、標(biāo)的物(物品)屬性5類;
2) 根據(jù)數(shù)據(jù)類型,可以劃分為數(shù)值類、文本類、時間類、圖片類、音視頻類等。
3) 根據(jù)數(shù)據(jù)結(jié)構(gòu),可以劃分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)等。
在推薦系統(tǒng)中,數(shù)據(jù)通常會根據(jù)產(chǎn)生的數(shù)據(jù)源來劃分
1) 用戶行為數(shù)據(jù)。
用戶在產(chǎn)品上的各種操作,如搜索、瀏覽、收藏、評論、分享、加購物車、支付等一切操作行為。行為數(shù)據(jù)真實還原了用戶的使用場景,反映了用戶在該場景下的興趣狀態(tài),分析這類數(shù)據(jù)可以獲得關(guān)于用戶興趣偏好的深刻洞察。
根據(jù)用戶的行為是否直接表明了用戶對標(biāo)的物的興趣偏好,用戶行為數(shù)據(jù)可以分為顯式行為和隱式行為。顯式行為是直接展示用戶興趣的行為,如評分。隱式行為則間接反映出用戶的興趣,包括瀏覽、點擊、收藏等。
2) 用戶屬性數(shù)據(jù)。
用戶人口統(tǒng)計學(xué)數(shù)據(jù),即用戶自身的屬性,比如性別、年齡、學(xué)歷、地域、收入等。此類數(shù)據(jù)通常穩(wěn)定不變,其中只有年齡會緩慢變化。
3) 社會網(wǎng)絡(luò)數(shù)據(jù)。
用戶社會關(guān)系數(shù)據(jù),包含社會網(wǎng)絡(luò)數(shù)據(jù),比如用戶的家庭朋友關(guān)系,聯(lián)系人,社交圈等等。此類數(shù)據(jù)在社交類產(chǎn)品的推薦場景中尤為重要,比如推薦好友閱讀書籍、推薦好友點贊視頻等。這部分?jǐn)?shù)據(jù)通常需要收集用戶手機信息,或者聯(lián)通手機其它APP數(shù)據(jù)分析。
4) 用戶即時場景(上下文)數(shù)據(jù)。
用戶對標(biāo)的物操作時所處的時間、空間、狀態(tài)的總稱。比如當(dāng)前時間、當(dāng)前天氣、當(dāng)前地理位置等,反饋了用戶的決策環(huán)境。比如外賣平臺會基于時間、配送地址推薦,早上8點會推薦附近的早餐、晚上8點則推薦附近的晚餐。最常見是用在PUSH即時推送上,場景化提升用戶轉(zhuǎn)化率。
5) 標(biāo)物(物品)屬性數(shù)據(jù)。
物品自身包含很多特征和屬性,物品屬性數(shù)據(jù)結(jié)合用戶行為數(shù)據(jù)后,可以將物品的屬性按照某種權(quán)重賦予用戶,構(gòu)建用戶的興趣偏好,也就是給用戶打興趣標(biāo)簽。
不難發(fā)現(xiàn),用戶行為數(shù)據(jù)是最重要、最容易收集、最多數(shù)量的一類數(shù)據(jù),通過和物品屬性數(shù)據(jù)結(jié)合可以構(gòu)造興趣標(biāo)簽,這在設(shè)計推薦系統(tǒng)中至關(guān)重要。
此外,隨著互聯(lián)網(wǎng)基礎(chǔ)建設(shè)的日趨成熟,基于“T+1”(指當(dāng)天利用前天之前的數(shù)據(jù),計算用戶的推薦結(jié)果,每天更新一次,或“離線計算”的推薦效率不能滿足企業(yè)需求,實時推薦成為主流。
如何利用洞察數(shù)據(jù),影響核心用戶行為?
一是優(yōu)化基于商品標(biāo)簽的推薦規(guī)則,提升商品搭配度和商品相似度。
舉例,當(dāng)我們發(fā)現(xiàn)用戶對水杯類商品的瀏覽次數(shù)大幅增加卻遲遲沒有下單時,就可以初步判斷該用戶有購買水杯類商品的需求卻沒有找到理想的款式。
于是,通過商品標(biāo)簽的推送規(guī)則,我們就可以在用戶的瀏覽頁推送款式、功能、價格等商品標(biāo)簽相近的水杯,以縮減用戶的搜索時間,提升商品成交率。
二是優(yōu)化基于用戶標(biāo)簽的推薦規(guī)則,提升對用戶偏好判斷的準(zhǔn)確性。
通過埋點數(shù)據(jù)采集用戶瀏覽、收藏、加入購物車等用戶行為數(shù)據(jù),更準(zhǔn)確地理解用戶需求。再通過后臺集成的用戶標(biāo)簽體系,為用戶推薦更加多樣化的商品。
舉例,一個用戶有“20~25歲”“女性”“白領(lǐng)階層”“單身”標(biāo)簽,最近購買某品牌的連衣裙。
——那么具有相似標(biāo)簽的用戶群體,就可以初步推斷她們也有很大的可能性在該時間段產(chǎn)生相似的需求,并基于此做出相應(yīng)的推薦,以喚醒用戶潛在的消費需求,提升GMV。
在推薦系統(tǒng)中,數(shù)據(jù)和算法同樣重要。數(shù)據(jù)和特征決定了推薦系統(tǒng)的上限,高質(zhì)量的數(shù)據(jù)和特征可以提升推薦系統(tǒng)的性能,而用戶行為數(shù)據(jù)更是起著舉足輕重的作用。
利用數(shù)據(jù)和算法進行的機器學(xué)習(xí)分類模型是應(yīng)用特別廣泛的模型,且應(yīng)用的場景也比較廣泛。
02 提升用戶價值,全面提升客單價,需要對客戶購物行為進行高潛預(yù)測
為了實現(xiàn)客單價值最大化,在預(yù)測客戶購買行為之前,我們需要分析三個問題:
1) 最好的客戶是誰?想判斷下一個階段最有可能購買商品的客戶,首先需要對這類客戶進行定義。
2) 最好的客戶有什么特征?進行客戶價值分層,識別高價值客戶的共性特征。
3) 如何獲得更多的這類客戶?提升銷售對高價值客戶的關(guān)注度,并通過用戶流轉(zhuǎn)地圖或者會員轉(zhuǎn)移矩陣,將黏性較差的低價值客戶轉(zhuǎn)化為中價值客戶,將中價值客戶培養(yǎng)成高價值客戶,以此推動GMV的提升,實現(xiàn)企業(yè)業(yè)績的提升。這是我們的最終目標(biāo)。
——我們需要建立會員高潛預(yù)測模型(即高可能性到店消費),然后需要讓業(yè)務(wù)人員能夠理解預(yù)測模型的原理和意義。
建立高潛預(yù)測模型,會有如下三個步驟:
第一步:商業(yè)洞察驅(qū)動特征構(gòu)造
利用商業(yè)洞察構(gòu)建高價值客戶的初始特征體系。比如,RFM模型經(jīng)常被用于該步驟的特征構(gòu)造,分析客戶最近一次的購買時間(Recency)、購買頻率(Frequency)、消費金額(Monetary)。同時還可以從其他角度出發(fā),比如在食品行業(yè),通常會從會員是否為儲值會員、是否曾經(jīng)退款、購買不同口味商品的數(shù)量、購買不同品類商品的數(shù)量、購買新品的數(shù)量等角度進行特征構(gòu)造。
第二步:精準(zhǔn)算法預(yù)測購買行為
我們有了明確的預(yù)測目標(biāo),將目標(biāo)定為“預(yù)測下個季度全量會員購買的可能性”,基于歷史數(shù)據(jù),運用算法對全量會員進行綜合打分。我們可以選擇LR(Logistic Regression,邏輯回歸)和LightGBM等分類模型進行比較,分析客戶未來的購買可能性與預(yù)測變量的相關(guān)性,分析重要變量的影響權(quán)重,構(gòu)建出最終的預(yù)測模型。
第三步:刻畫用戶畫像和用戶行為預(yù)測模型
在上百個特征中,AI模型能幫助我們找到20多個核心特征,進而形成消費可能性高低分群。例如,高價值會員的核心特征:曾是或者現(xiàn)在仍是儲值會員、RFM、基礎(chǔ)特征(性別)、品類相關(guān)、促銷相關(guān)等特征。儲值會員特征對未來哪些客戶會到店消費的預(yù)測力最強,其次是最近購買間隔。
高價值客戶核心特征表(部分)
所以在上圖中建立預(yù)測模型的過程中,所需的數(shù)據(jù)有交易數(shù)據(jù)和會員數(shù)據(jù)兩大類。
1)我們基于原始數(shù)據(jù),構(gòu)建出一張大寬表,其中70%的數(shù)據(jù)作為模型的訓(xùn)練數(shù)據(jù)集,剩余30%則作為模型的驗證數(shù)據(jù)集
2)模型訓(xùn)練的歷史數(shù)據(jù)經(jīng)過編碼、特征降維等數(shù)據(jù)預(yù)處理之后,植入智能算法進行訓(xùn)練。獲得初始模型后,再將預(yù)留的30%驗證數(shù)據(jù)集代入模型,檢驗?zāi)P偷臏?zhǔn)確性和有效性,同時生成驗證報告[ROC曲線(接受者操作特征曲線)]。
3)針對未來到店購買的人群,我們會使用最新的數(shù)據(jù)對會員下個季度的購買可能性進行預(yù)測打分,識別下個階段購買可能性最高的會員。
根據(jù)特征因子與模型,結(jié)合現(xiàn)有的用戶行為數(shù)據(jù),我們可以對全量會員下個階段購買的可能性進行評級與打分。這樣每位會員對應(yīng)一個預(yù)測概率,我們可以按照一定比例切割,進行用戶價值分層。
通過數(shù)據(jù)分析,我們將0.9分以上的會員雖然只占據(jù)全體會員的20%,但覆蓋了50%的GMV,那么我們可將此類會員判定為高價值人群;低于0.1分的會員可判定為低價值人群;而處于中間分值會員可判定為中價值人群
——最終以0.9分和0.1分作為切割點,我們能夠?qū)θ靠蛻暨M行有效分群。
如何將數(shù)據(jù)運用到真實業(yè)務(wù)場景的用戶分層中呢?
比預(yù)測模型更重要的是,理解該模型并運用到實際業(yè)務(wù)場景中,通過模型對客戶進行評分然后對用戶進行分層,我們就可以得到相應(yīng)的用戶分層組群。
用戶分層0~4組對應(yīng)著由高到低的購買概率,0代表購買概率最高的用戶群組,4代表購買概率最低的用戶群組。觀察每個用戶群組的特征數(shù)據(jù)可知,上次消費距今間隔越短,未來一季度到店的可能性越高,消費頻次、消費金額也與未來到店概率成正相關(guān)關(guān)系。
同時,對特征因子之間的關(guān)聯(lián)性進行分析,還可以洞察用戶的其他特征。
例如,上次消費距今越近,購買概率越高;消費頻次越高,購買概率越高;消費的品類數(shù)越多,購買概率越高等規(guī)律。
通過機器學(xué)習(xí)預(yù)測客戶購買行為,能夠幫助業(yè)務(wù)人員更精準(zhǔn)地識別和定位潛在客戶群體,從而進行個性化營銷,將中低價值人群轉(zhuǎn)化為高價值人群,為企業(yè)帶來更直接的增長!
本文由 @ Sherryyyyy 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)
基于商品標(biāo)簽和用戶標(biāo)簽推薦規(guī)則的圖,沒太看懂,求解,謝謝