構(gòu)建用戶畫像系統(tǒng)解決方案
編輯導(dǎo)語(yǔ):如今在這個(gè)大數(shù)據(jù)時(shí)代,很多時(shí)候我們會(huì)被打上“標(biāo)簽”,比如我們?cè)诠涮詫殨r(shí),軟件會(huì)根據(jù)你的瀏覽和搜索喜好進(jìn)行推薦,這就是對(duì)于用戶的精準(zhǔn)投放,有效地提高轉(zhuǎn)化;本文作者分享了關(guān)于構(gòu)建用戶畫像系統(tǒng)解決方案,我們一起來(lái)看一下。
一、認(rèn)識(shí)用戶畫像
1. 什么是用戶畫像
用戶畫像是一個(gè)描述用戶的工具,刻畫出用戶個(gè)體或者用戶群體全方位的特征,為運(yùn)營(yíng)分析人員提供用戶的偏好、行為等信息進(jìn)而優(yōu)化運(yùn)營(yíng)策略,為產(chǎn)品提供準(zhǔn)確的用戶角色信息以便進(jìn)行針對(duì)性的產(chǎn)品設(shè)計(jì)。
用戶畫像系統(tǒng)集用戶畫像的生產(chǎn)與應(yīng)用于一身,對(duì)外(如產(chǎn)品運(yùn)營(yíng)、推薦系統(tǒng)等)封裝提供用戶畫像信息,以便對(duì)產(chǎn)品更好的設(shè)計(jì)以及對(duì)用戶更好的運(yùn)營(yíng)。
2. 用戶畫像與數(shù)倉(cāng)的關(guān)系
前面介紹了數(shù)據(jù)倉(cāng)庫(kù)的搭建《數(shù)據(jù)產(chǎn)品經(jīng)理如何推進(jìn)數(shù)據(jù)倉(cāng)庫(kù)的落地》,那么用戶畫像與數(shù)倉(cāng)是一個(gè)什么樣的關(guān)系?
一般來(lái)說(shuō),數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的是結(jié)構(gòu)化的數(shù)據(jù),而構(gòu)建用戶畫像需要結(jié)構(gòu)化數(shù)據(jù),也有非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),既擁有結(jié)構(gòu)化數(shù)據(jù)又擁有半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的系統(tǒng)稱之為數(shù)據(jù)湖。
相對(duì)來(lái)說(shuō),結(jié)構(gòu)化的數(shù)據(jù)更容易構(gòu)建用戶畫像,只需要對(duì)結(jié)構(gòu)化的數(shù)據(jù)直接進(jìn)行標(biāo)簽化,而非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)需要通過算法進(jìn)行處理后再進(jìn)行標(biāo)簽化。
用戶畫像與數(shù)倉(cāng)的關(guān)系為數(shù)據(jù)源與數(shù)據(jù)應(yīng)用的關(guān)系,兩者相輔相成,關(guān)系圖如下:
3. 用戶畫像(User Profile)與用戶角色(User Persona)區(qū)別
經(jīng)常有人搞不清楚用戶畫像與用戶角色的區(qū)別,其實(shí)兩者本質(zhì)上是不一樣的,先來(lái)看看兩者的對(duì)比圖表:
①性質(zhì):用戶角色為定性研究,只考慮用戶的特征性質(zhì)不考慮程度,而用戶畫像是對(duì)用戶的精細(xì)刻畫,為定量研究。
②使用時(shí)機(jī):一般來(lái)說(shuō),用戶角色的使用場(chǎng)景在產(chǎn)品上線之前,此時(shí)幾乎沒有任何數(shù)據(jù),需要產(chǎn)品同學(xué)針對(duì)產(chǎn)品的使用方進(jìn)行特征描繪,以便了解目標(biāo)群體進(jìn)行針對(duì)性的設(shè)計(jì);用戶畫像的使用場(chǎng)景在產(chǎn)品上線后,此時(shí)已積累了一定的數(shù)據(jù)量,可以對(duì)用戶進(jìn)行數(shù)據(jù)統(tǒng)計(jì)構(gòu)建用戶畫像,獲得精細(xì)化運(yùn)營(yíng)的能力。
③描述程度:用戶角色是對(duì)某個(gè)用戶群體特征進(jìn)行高度概括,用戶畫像是對(duì)用戶個(gè)體或者用戶群體的精細(xì)描述。
④用途:用戶角色用于輔助產(chǎn)品進(jìn)行設(shè)計(jì),研究用戶體驗(yàn),例如權(quán)限控制系統(tǒng)會(huì)分為以下幾個(gè)角色:分析師、產(chǎn)品、運(yùn)營(yíng)、數(shù)據(jù)科學(xué)家等角色,用戶畫像用于了解用戶特征以及偏好,以便提供個(gè)性化的服務(wù)和提高盈利。
二、用戶畫像規(guī)劃
在構(gòu)建用戶畫像之前,需要產(chǎn)品同學(xué)進(jìn)行一個(gè)規(guī)劃,說(shuō)明下項(xiàng)目的背景以及做這個(gè)系統(tǒng)的必要性,最終要實(shí)現(xiàn)的目標(biāo)是什么,即提供什么樣的功能,為了達(dá)成這個(gè)目標(biāo)需要的人力以及物力資源。
1. 所需物力資源
這里需要計(jì)算一下需要什么硬件,如多大的磁盤、內(nèi)存,需要哪些,具體可以將硬盤和內(nèi)存分配到每個(gè)存儲(chǔ)及計(jì)算組件上,這個(gè)工作可與技術(shù)同學(xué)協(xié)商完成。
2. 所需人力資源
基于前面的介紹,設(shè)備的維護(hù)以及各存儲(chǔ)計(jì)算組件的運(yùn)行保障這里需要運(yùn)維工程師,數(shù)據(jù)的清洗需要ETL工程師。
數(shù)據(jù)的存儲(chǔ)、標(biāo)簽生成、流式計(jì)算等需要用到多種的大數(shù)據(jù)組件,這就需要大數(shù)據(jù)開發(fā)工程師,同時(shí)存儲(chǔ)的數(shù)據(jù)庫(kù)各種備份維護(hù)等工作需要配備數(shù)據(jù)庫(kù)工程師。
非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)需要經(jīng)過算法處理,所以算法工程師也是必需的;最后,用戶畫像需要進(jìn)行可視化,還需要配備一個(gè)前端工程師。
根據(jù)以上分析,所需的工程師如下(具體需要人數(shù)視項(xiàng)目而定,有的全棧工程師可以身兼多職就不需要這么多):
三、怎么構(gòu)建用戶畫像
1. 用戶畫像實(shí)施
在開始構(gòu)建用戶畫像之前,需要數(shù)據(jù)產(chǎn)品出一個(gè)詳細(xì)的實(shí)施文檔,如果說(shuō)用戶畫像規(guī)劃文檔是說(shuō)做什么的話,那用戶畫像實(shí)施文檔就是說(shuō)明具體要怎么做;這樣開發(fā)人員才知道具體的邏輯著手實(shí)施,如受多個(gè)因素影響的標(biāo)簽每個(gè)因素的權(quán)重是多少,這樣才能計(jì)算出最終標(biāo)簽的值。
以下各步驟均要在實(shí)施文檔里面詳細(xì)說(shuō)明:
2. 數(shù)據(jù)建模
數(shù)據(jù)的如何從原始數(shù)據(jù)最終轉(zhuǎn)化成標(biāo)簽數(shù)據(jù),需要定義一個(gè)標(biāo)準(zhǔn)處理流程,這就是數(shù)據(jù)建模。
1)建模流程
以上圖片為使用多項(xiàng) Logistic 回歸算法對(duì)電信業(yè)客戶進(jìn)行分類的建模流程,從圖片上看,數(shù)據(jù)建??梢苑譃橐韵聨讉€(gè)步驟:
① 獲取原始數(shù)據(jù),包含用戶訪問的行為日志、用戶基本屬性等,具體需要的數(shù)據(jù)視用途而定,這里預(yù)測(cè)客戶類別用到的信息有地區(qū)、年齡、婚姻狀況、地址、收入、教育程度、行業(yè)、退休、性別、居住地和客戶類別。
② 數(shù)據(jù)預(yù)處理,挖掘出事實(shí)標(biāo)簽,對(duì)用戶數(shù)據(jù)進(jìn)行過濾、清洗、簡(jiǎn)化表示,例如:過濾掉表中的無(wú)關(guān)字段,指定字段類型,處理缺省值等。
③ 分析用戶行為及屬性,構(gòu)建用戶畫像的模型標(biāo)簽,通過用戶行為屬性分析,得到各類型用戶的行為規(guī)律及特征屬性,構(gòu)建用戶行為屬性模型,訓(xùn)練出最終模型。
④ 調(diào)優(yōu)模型,對(duì)模型進(jìn)行調(diào)優(yōu),使預(yù)測(cè)結(jié)果更準(zhǔn)確。
⑤ 通過模型進(jìn)行預(yù)測(cè),完善用戶畫像,預(yù)測(cè)用戶的操作行為。
2)建模常用模型
以下列出常見的建模模型,以便了解熟悉各模型的常見用途。
① 文本挖掘模型(TF-IDF):常用于文本的特征提取,處理與清洗數(shù)據(jù),匹配標(biāo)識(shí)用戶數(shù)據(jù),TF-IDF的主要思想是:如果某個(gè)詞或短語(yǔ)在一篇文章中出現(xiàn)的頻率越高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語(yǔ)具有很好的類別區(qū)分能力,能更好的代表本篇文章,適合用來(lái)分類。
② 分類聚類模型(貝葉斯、KNN、K-Means):通過分析有相同特征的群體信息,對(duì)用戶進(jìn)行劃分。
③ 機(jī)器學(xué)習(xí):通過特征提取挖掘出標(biāo)簽。
④ 相似度模型(余弦相似度、皮爾遜相似度):用于輔助分類、聚類。
⑤ 推薦算法(Apriori):根據(jù)用戶訪問情況推薦出興趣標(biāo)簽,完善畫像。
3. 用戶畫像維度拆解
思考通過各種維度來(lái)全方位描述用戶畫像,根據(jù)產(chǎn)品是To B還是To C注重的方向又不一樣,To C類型產(chǎn)品會(huì)關(guān)注用戶的性別、年齡、興趣、職業(yè)等信息;而To B類產(chǎn)品不太關(guān)注這些,會(huì)更傾向于研究用戶的工作能力、行為習(xí)慣等。
產(chǎn)品所處的行業(yè)對(duì)用戶畫像側(cè)重點(diǎn)也有影響,社交類和金融類的產(chǎn)品關(guān)注點(diǎn)又不一樣;一般來(lái)說(shuō),可通過以下信息來(lái)基本構(gòu)建用戶畫像,其余的維度視具體需求再進(jìn)行定制化開發(fā)。
總之,用戶畫像的多維度刻畫需要遵循MECE法則進(jìn)行全方位不重復(fù)的拆解,這里同時(shí)引出了一個(gè)問題,維度的細(xì)分是不是越細(xì)越好?
如果用戶畫像的顆粒度過于精細(xì)。意味著開發(fā)成本直線提升,同時(shí),過細(xì)的拆分意味著每個(gè)類別對(duì)應(yīng)的用戶量變少,造成服務(wù)目標(biāo)單一化。
舉一個(gè)比較極端不存在的例子,將用戶ID作為標(biāo)簽,則每個(gè)ID對(duì)應(yīng)一個(gè)用戶,這樣的細(xì)分對(duì)精細(xì)化運(yùn)營(yíng)是沒有幫助的;在維度細(xì)化拆分的過程中也要不停關(guān)注標(biāo)簽值覆蓋面來(lái)進(jìn)行微調(diào)。
4. 用戶畫像標(biāo)簽生成
由于用戶需求和用戶場(chǎng)景不斷更新,所以標(biāo)簽體系需要持續(xù)完善。不同的用戶需求和業(yè)務(wù)場(chǎng)景,不同的業(yè)務(wù)標(biāo)簽,用戶標(biāo)簽系統(tǒng)就不同。
1)標(biāo)簽的生成
標(biāo)簽從生成邏輯上來(lái)區(qū)分主要有幾大類:統(tǒng)計(jì)標(biāo)簽、規(guī)則標(biāo)簽、模型標(biāo)簽、算法標(biāo)簽。
- 統(tǒng)計(jì)標(biāo)簽:根據(jù)已有數(shù)據(jù)進(jìn)行統(tǒng)計(jì),如統(tǒng)計(jì)用戶近30天的消費(fèi)金額;
- 規(guī)則標(biāo)簽:根據(jù)一定的業(yè)務(wù)規(guī)則進(jìn)行劃分,如根據(jù)用戶的歷史消費(fèi)情況給用戶劃分對(duì)應(yīng)的消費(fèi)等級(jí);
- 模型標(biāo)簽:基于一些分析模型對(duì)用戶進(jìn)行打標(biāo)簽,如RFM模型;
- 算法標(biāo)簽:此類標(biāo)簽可用于預(yù)測(cè),如預(yù)測(cè)用戶是否是潛在付費(fèi)用戶。
下面在RFM模型基礎(chǔ)上,結(jié)合AHP分析法對(duì)用戶進(jìn)行打標(biāo)簽:
某產(chǎn)品有以下購(gòu)買消費(fèi)數(shù)據(jù):
如果我們想知道每個(gè)用戶的價(jià)值是多少的話需要怎么評(píng)估,用戶價(jià)值有多個(gè)因素影響,這里的影響因素就是RFM三個(gè)因素,計(jì)算步驟如下:
構(gòu)建層次結(jié)構(gòu)模型:
構(gòu)造判斷矩陣:
根據(jù)以上打分規(guī)則,由經(jīng)驗(yàn)豐富、判斷力強(qiáng)的專家對(duì)三個(gè)因素兩兩打分給出判斷矩陣。
上表意味著專家評(píng)判RFM三個(gè)因素的權(quán)重順序分別是M>F>R。
計(jì)算特征向量:
通過判斷矩陣計(jì)算特征向量(也就是權(quán)重)。
判斷矩陣一致性檢驗(yàn):
有了以上權(quán)重,還要進(jìn)行一致性檢驗(yàn),判斷權(quán)重分配是否合理,避免出現(xiàn)類似M>F,F>R,R>M的情況;由于篇幅問題,就不進(jìn)行詳細(xì)的計(jì)算,網(wǎng)上也提供了在線計(jì)算工具只需要輸入判斷矩陣即可得出一致性檢驗(yàn)結(jié)果。
從以上計(jì)算,我們得出了RFM三個(gè)因素的權(quán)重,接下來(lái)就要根據(jù)這些權(quán)重以及各用戶的RFM具體的值來(lái)計(jì)算用戶價(jià)值。
RFM值標(biāo)準(zhǔn)化計(jì)算價(jià)值:
因?yàn)镽FM值的量綱不一樣,需要進(jìn)行標(biāo)準(zhǔn)化才有可比性,可通過以下兩個(gè)公式進(jìn)行標(biāo)準(zhǔn)化。
兩個(gè)公式應(yīng)用的場(chǎng)景不一樣,第一個(gè)公式適用于該因素對(duì)結(jié)果有正向影響時(shí)使用,第二個(gè)公式適用于該因素對(duì)結(jié)果有負(fù)向影響時(shí)使用。
RFM因素中,R值越小對(duì)用戶價(jià)值影響越大,因此使用第二個(gè)公式,F(xiàn)值和M值越大對(duì)用戶價(jià)值影響越大,因此使用第一個(gè)公式。
使用以上兩個(gè)公式進(jìn)行標(biāo)準(zhǔn)化后,將得到標(biāo)準(zhǔn)化后的值分別乘以該因素對(duì)應(yīng)的權(quán)重即可得到每個(gè)用戶的價(jià)值。
生成標(biāo)簽:
根據(jù)上面計(jì)算出來(lái)的值生成各因素對(duì)應(yīng)的標(biāo)簽,可以用均值區(qū)分,均值以上的為1,均值以下的為0,最終生成的標(biāo)簽如下:
以上有R、F、M、價(jià)值四個(gè)因素,每個(gè)因素有0或者1兩種情況,總共可以組合成16種情況,即可以將用戶分為16層,針對(duì)每層用戶特點(diǎn)進(jìn)行個(gè)性化服務(wù)。
5. 標(biāo)簽值映射規(guī)則
各類標(biāo)簽在底層存儲(chǔ)中并不會(huì)儲(chǔ)存具有實(shí)際意義的值,為了節(jié)省存儲(chǔ)成本和提高查詢效率通常用0、1等簡(jiǎn)單字符來(lái)表示;所以具體的映射規(guī)則需要數(shù)據(jù)產(chǎn)品進(jìn)行定義并維護(hù),業(yè)務(wù)人員咨詢某標(biāo)簽里面的1代表什么意思的時(shí)候不至于一頭霧水。
6. 用戶畫像質(zhì)量評(píng)估
經(jīng)過以上步驟,用戶畫像的維度逐漸豐富,此時(shí)需要對(duì)用戶畫像的質(zhì)量進(jìn)行檢驗(yàn),主要從以下幾個(gè)方面:
用戶覆蓋率:用戶畫像具體能夠覆蓋到多少用戶,如年齡標(biāo)簽有80萬(wàn)人打上的具體的值,有20萬(wàn)人沒打上,則年齡標(biāo)簽的用戶覆蓋率是80%;覆蓋率是用戶畫像應(yīng)用的一個(gè)評(píng)價(jià),覆蓋率越高,對(duì)后續(xù)精準(zhǔn)營(yíng)銷的策略選擇越準(zhǔn)確。
準(zhǔn)確率:標(biāo)簽有值但是打錯(cuò)了標(biāo)簽也是質(zhì)量差的一個(gè)表現(xiàn),,使用算法模型導(dǎo)致的用戶分群錯(cuò)誤或者對(duì)用戶的購(gòu)買意向預(yù)測(cè)錯(cuò)誤,將直接影響購(gòu)買率,影響GMV。此項(xiàng)指標(biāo)可以通過灰度測(cè)試來(lái)驗(yàn)證。
可拓展:用戶畫像系統(tǒng)在維度刻畫方面應(yīng)該是可擴(kuò)展的,支持后續(xù)方便的增加其他標(biāo)簽維度。
及時(shí)性:標(biāo)簽的實(shí)時(shí)更新對(duì)一些場(chǎng)景化推薦營(yíng)銷起到至關(guān)重要的作用,需要對(duì)近10分鐘內(nèi)做過某些行為的用戶進(jìn)行針對(duì)性廣告推薦,如果用戶做了該行為但是標(biāo)簽沒有及時(shí)更新的話那這個(gè)推薦系統(tǒng)將起不到任何作用。此項(xiàng)指標(biāo)可以人工進(jìn)行操作后觀察用戶畫像更新的時(shí)長(zhǎng)。
7. 用戶畫像可視化
用戶畫像完成之后,需要對(duì)用戶畫像進(jìn)行可視化以便只管感受,可通過Echarts、Tableau等可視化工具進(jìn)行繪圖;對(duì)于用戶個(gè)體,可生成類似于簡(jiǎn)歷的用戶信息描述,對(duì)于用戶群體,可展示該群體在各個(gè)維度的分布情況。
四、用戶畫像的應(yīng)用
用戶畫像的應(yīng)用場(chǎng)景十分廣泛,無(wú)論是用戶精細(xì)化運(yùn)營(yíng)還是系統(tǒng)個(gè)性化服務(wù)都能很好的支持,以下列舉一些用戶畫像常見的應(yīng)用:
- 精準(zhǔn)營(yíng)銷,分析產(chǎn)品潛在用戶,針對(duì)特定群體利用短信郵件等方式進(jìn)行營(yíng)銷;
- 用戶統(tǒng)計(jì),比如APP用戶的性別、年齡分布;
- 推薦系統(tǒng),通過數(shù)據(jù)挖掘利用關(guān)聯(lián)規(guī)則計(jì)算,進(jìn)行物品關(guān)聯(lián)推薦,利用聚類算法分析,上班一族使用APP的時(shí)間分布情況;
- 廣告推薦,其實(shí)也是推薦系統(tǒng)的一種;
- 提供種子用戶,篩選出與種子用戶類似的用戶群體或者相反的用戶群體,進(jìn)行定制化的服務(wù)。
本文由 @不語(yǔ) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自?Unsplash,基于 CC0 協(xié)議
讀了三遍,第一次接觸數(shù)據(jù)模型算法的文章。我這里正在做一個(gè)煤礦公司(兩萬(wàn)人)的B端項(xiàng)目,想通過對(duì)用戶的安全履職各類數(shù)據(jù)進(jìn)行分析,然后用戶評(píng)價(jià),給決策層提供重點(diǎn)關(guān)注人群,整好用得到。感謝作者分享?。?!
您好看了您的文章,我們正在尋找課程開發(fā)的合作講師,不知道您是否有意愿,方便可以加V(www-627715182)詳細(xì)了解
很棒,感謝