在線教育大數(shù)據(jù)營銷平臺實戰(zhàn)(一):大數(shù)據(jù)平臺構(gòu)建實戰(zhàn)
編輯導(dǎo)讀:企業(yè)每天生產(chǎn)眾多的數(shù)據(jù),這些數(shù)據(jù)要經(jīng)過分析才能對業(yè)務(wù)、運營等產(chǎn)生價值。而大數(shù)據(jù)平臺就是了滿足企業(yè)對于數(shù)據(jù)的各種要求而產(chǎn)生的。如何構(gòu)建一個大數(shù)據(jù)平臺,取決于企業(yè)的數(shù)據(jù)化程度和面臨的數(shù)據(jù)問題。本文作者將以在線教育為例,分析如何從0到1構(gòu)建大數(shù)據(jù)平臺,與你分享。
第一篇文章,按照慣例先做個自我介紹。本人目前在一家在線教育公司擔任大數(shù)據(jù)營銷產(chǎn)品負責人,由于一些機緣巧合,我同時負責了數(shù)據(jù)產(chǎn)品線和營銷CRM產(chǎn)品線,因此給了我更多的機會去思考和實踐如何把數(shù)據(jù)與營銷業(yè)務(wù)深入融合,將大數(shù)據(jù)的勢能賦予營銷平臺,從而實現(xiàn)業(yè)務(wù)的精細化運營和數(shù)據(jù)驅(qū)動。
接下來,針對在線教育業(yè)務(wù)場景下的大數(shù)據(jù)營銷平臺實戰(zhàn),我會用一個系列的文章進行系統(tǒng)化闡述。文章可能會涉及:大數(shù)據(jù)平臺搭建、用戶畫像服務(wù)體系、CRM線索動態(tài)評分模型及分配算法、數(shù)據(jù)產(chǎn)品實施推廣方案、客戶數(shù)據(jù)中臺(CDP)等多個方向。
本篇主要來講解如何從0到1構(gòu)建在線教育業(yè)務(wù)場景下的大數(shù)據(jù)平臺。
一、企業(yè)數(shù)據(jù)問題診斷
產(chǎn)品是為了滿足需求,是否需要構(gòu)建大數(shù)據(jù)平臺?以及構(gòu)建什么樣的大數(shù)據(jù)平臺?取決于企業(yè)的數(shù)據(jù)化程度和面臨的數(shù)據(jù)問題。因此在構(gòu)建大數(shù)據(jù)平臺之前,需要進行充分地調(diào)研,找準問題才能對癥下藥。對企業(yè)數(shù)據(jù)化程度的評估方法,可以參考下圖所示的數(shù)據(jù)管理能力成熟度模型(DMM)。
通過前期的調(diào)研和分析,我們公司當時處于L2等級,面臨的主要數(shù)據(jù)問題如下:
1)數(shù)據(jù)源分散
- 不利于多數(shù)據(jù)源之間關(guān)聯(lián)分析
- 不利于數(shù)據(jù)資產(chǎn)價值的進一步挖掘
- 數(shù)據(jù)孤島嚴重
- 無統(tǒng)一數(shù)據(jù)平臺、數(shù)據(jù)資源得不到匯總沉淀,數(shù)據(jù)無法高效支撐業(yè)務(wù)
2)數(shù)據(jù)指標不統(tǒng)一
- 不同業(yè)務(wù)部門分而治之
- 準確性、權(quán)威性受到質(zhì)疑
- 不利于公司各業(yè)務(wù)部門KPI考核
- 指標統(tǒng)計口徑需要標準化
3)數(shù)據(jù)分析效率低
- 各業(yè)務(wù)部門占用部分精力數(shù)據(jù)分析工作
- 對于數(shù)據(jù)的需求往往需要從原始數(shù)據(jù)開始
- 對數(shù)據(jù)分析師的支撐不夠
- 無成型完整的數(shù)據(jù)分析工具
4)數(shù)據(jù)管理問題
- 無統(tǒng)一數(shù)據(jù)字典
- 缺少數(shù)據(jù)地圖
- 無元數(shù)據(jù)管理
二、大數(shù)據(jù)平臺業(yè)務(wù)架構(gòu)及Road Map
上一部分已經(jīng)對企業(yè)內(nèi)部數(shù)據(jù)問題進行了全面診斷和問題剖析,接下來我們針對這些問題給出解決的架構(gòu)方案和路線圖。
1. 數(shù)據(jù)服務(wù)體系藍圖
從業(yè)務(wù)視角給出了如下的數(shù)據(jù)服務(wù)體系藍圖,數(shù)據(jù)服務(wù)體系的規(guī)劃需要滿足三點:數(shù)據(jù)服務(wù)體系需要覆蓋完整的公司業(yè)務(wù)、貫穿業(yè)務(wù)的各個階段、伴隨企業(yè)發(fā)展。
在此數(shù)據(jù)服務(wù)體系中,處于核心環(huán)節(jié)的是數(shù)據(jù)整體建模和數(shù)據(jù)資產(chǎn)管理,也就是我們熟悉的統(tǒng)一化數(shù)倉建設(shè)。結(jié)合在線教育業(yè)務(wù)特點,數(shù)倉建設(shè)需要滿足三個核心數(shù)據(jù)體系建設(shè):
- 用戶數(shù)據(jù)體系:用戶分析應(yīng)用、用戶標簽、用戶行為數(shù)據(jù),用戶基本信息主數(shù)據(jù)等;
- 營銷數(shù)據(jù)體系:營銷分析應(yīng)用、營銷分層標簽、渠道特征數(shù)據(jù)、營收轉(zhuǎn)化相關(guān)的主數(shù)據(jù)等;
- 學(xué)習數(shù)據(jù)體系:學(xué)習分析應(yīng)用、學(xué)習偏好標簽、學(xué)習行為數(shù)據(jù)、學(xué)習素材基礎(chǔ)數(shù)據(jù)等。
2. 數(shù)據(jù)倉庫架構(gòu)
數(shù)據(jù)倉庫的層次劃分采用業(yè)界通用的層級劃分方式,包括:ODS、DWD、DWS、ADS層,如下圖所示:
1)ODS層
- 數(shù)據(jù)同步:結(jié)構(gòu)化數(shù)據(jù)增量或全量同步到數(shù)據(jù)倉庫;
- 結(jié)構(gòu)化:非結(jié)構(gòu)化(日志)結(jié)構(gòu)化處理并存儲到數(shù)據(jù)倉庫;
- 累積歷史、清洗:根據(jù)數(shù)據(jù)業(yè)務(wù)需求及稽核和審計要求保存歷史數(shù)據(jù)、數(shù)據(jù)清洗;
2)CDM層
- 組合相關(guān)和相似數(shù)據(jù):采用明細寬表,復(fù)用關(guān)聯(lián)計算,減少數(shù)據(jù)掃描。
- 公共指標統(tǒng)一加工:基于OneData體系構(gòu)建命名規(guī)范、口徑一致和算法統(tǒng)一的統(tǒng)計指標;建立邏輯匯總寬表。
- 建立一致性維度:建立一致的數(shù)據(jù)分析維表,降低數(shù)據(jù)計算口徑不統(tǒng)一的風險。
3)ADS層
- 個性化指標加工:不公用性、復(fù)雜性(指數(shù)型、比值型、排名型等)
- 基于應(yīng)用的數(shù)據(jù)組裝:大寬表集市、橫表轉(zhuǎn)縱表、趨勢指標串。
3. 數(shù)據(jù)處理流程架構(gòu)
數(shù)據(jù)處理流程主要包括源數(shù)據(jù)同步清洗、數(shù)據(jù)處理加工、模型運算和數(shù)據(jù)應(yīng)用?;谠诰€在線教育公司的業(yè)務(wù)特點,源數(shù)據(jù)主要包括:渠道數(shù)據(jù)、用戶數(shù)據(jù)、交易數(shù)據(jù)、營銷過程數(shù)據(jù)、學(xué)習數(shù)據(jù)、外部第三方數(shù)據(jù)等。
模型引擎包括離線計算引擎和實時計算引擎兩類,需要滿足算法(或規(guī)則)部署、模型訓(xùn)練和上線、以及對其他業(yè)務(wù)系統(tǒng)提供接口服務(wù)的能力,比如為CRM系統(tǒng)提供多算法的線索實時分配、用戶畫像分層等服務(wù)。在數(shù)據(jù)的匯聚、加工生產(chǎn)、應(yīng)用的全流程中,全生命周期的數(shù)據(jù)治理不能忽視,因為數(shù)據(jù)的準確定、完整性、一致性直接影響業(yè)務(wù)對數(shù)據(jù)系統(tǒng)的可信度。
4. 從0~1構(gòu)建大數(shù)據(jù)平臺的Road Map
筆者結(jié)合自身在推進大數(shù)據(jù)平臺建設(shè)過程中的經(jīng)驗,給出以下路線圖供大家參考。
三、數(shù)據(jù)建模及設(shè)計規(guī)范
1. 數(shù)據(jù)模型選型及舉例
維度建模常見的模型有星型模型、雪花模型和星座模型三種,數(shù)據(jù)倉庫設(shè)計一般采用星型模型。
星型模型是一種多維的數(shù)據(jù)關(guān)系,它由一個事實表(Fact Table)和一組維表(Dimension Table)組成。每個維表都有一個維作為主鍵,所有這些維的主鍵組合成事實表的主鍵。事實表的非主鍵屬性稱為事實(Fact),它們一般都是數(shù)值或其他可以進行計算的數(shù)據(jù)。
事實表:表示對分析主題所屬類型的描述。比如“昨天早上張三在環(huán)球網(wǎng)校花費1000元購買了一個一建零基礎(chǔ)暢學(xué)班課程”。那么以購買為主題進行分析,可從這段信息中提取三個維度:時間維度(昨天早上),地點維度(環(huán)球網(wǎng)校), 商品維度(一建零基礎(chǔ)暢學(xué)班課程)。通常來說維度表信息比較固定,且數(shù)據(jù)量小。
維度表:表示對分析主題的度量。比如上面那個例子中,1000元就是事實信息。事實表包含了與各維度表相關(guān)聯(lián)的外碼,并通過JOIN方式與維度表關(guān)聯(lián)。事實表的度量通常是數(shù)值類型,且記會不斷增加,表規(guī)模迅速增長錄數(shù)。
2. 數(shù)倉表設(shè)計規(guī)范
1)表命名規(guī)范
數(shù)倉各層表命名規(guī)范如下圖所示。
2)字段級規(guī)范
新增指標的命名參考已有字段命名方式,避免出現(xiàn)同一個字段,10個人有10個命名方法。
字段分類包括:明細,維度,指標,時間,代碼,標志位,命名規(guī)范如下:
- id結(jié)尾表示編號,部分維度編號對應(yīng)含義需關(guān)聯(lián)數(shù)倉相應(yīng)維度表獲取含義;
- name結(jié)尾表示名稱,多與id對應(yīng),解釋其含義,獨立的以name結(jié)尾的字段;
- code結(jié)尾表示代碼字段,對應(yīng)含義部分可在文檔直接查看,部分需關(guān)聯(lián)數(shù)倉代碼表獲??;
- time結(jié)尾表示時間字段,格式為yyyy-mm-dd hh:mi:ss,從源系統(tǒng)獲取,不作處理;
- money結(jié)尾表示金額,都為系統(tǒng)相應(yīng)交易金額;
- is_開頭表示標志字段,此字段只有0,1,含義:1是,0否;
- 除以上規(guī)范字段,其他字段根據(jù)中文含義對應(yīng)生成英文字段,多為一些屬性字段,意義不大。
四、大數(shù)據(jù)平臺技術(shù)架構(gòu)及模塊簡介
在大數(shù)據(jù)平臺的建設(shè)過程中,筆者和公司大數(shù)據(jù)架構(gòu)師共同研究探討后給出的技術(shù)架構(gòu)如下圖所示。
1)安全模塊
作為數(shù)據(jù)平臺來講,保障數(shù)據(jù)安全始終是第一要素。 安全體系的建立主要包含以下幾個方面:
- 數(shù)據(jù)安全規(guī)范、安全等級制定
- 用戶系統(tǒng)
- 基礎(chǔ)組件層權(quán)限管理
- 服務(wù)層權(quán)限管理
- 用戶認證
- 秘鑰管理
- 流程審批
- 數(shù)據(jù)加密脫敏
- 審計
2)監(jiān)控模塊
數(shù)據(jù)安全之外,服務(wù)的穩(wěn)定性算是平臺的第二級指標。好的監(jiān)控體系可以幫助預(yù)測風險定位問題。例如:
- 提前預(yù)判磁盤容量
- 定位內(nèi)存、CPU資源問題
- 發(fā)現(xiàn)異常任務(wù)
- 節(jié)點宕機等問題
- 查看該各服務(wù)負載,評估資源
3)存儲模塊
存儲模塊屬于基礎(chǔ)組件模塊,主要采用hadoop生態(tài)系統(tǒng)的相關(guān)組件。面向不同的應(yīng)用場景選擇一種組件,例如:
- hive: 離線數(shù)倉
- HBase:KV存儲,可用于高度聚合后的固定指標,應(yīng)對有較高并發(fā)請求的場景
- Druid:面向OLAP場景,能夠提供亞秒級、較高請求量且需要鉆取能力的OLAP功能
- Impala: 在數(shù)倉數(shù)據(jù)基礎(chǔ)上提供更高效的查詢分析能力,適合即席查詢場景,但是并不能處理更高的請求量。
4)計算模塊
Yarn做統(tǒng)一資源管理,Spark或者Flink都可以作為統(tǒng)一流、批處理框架?;蛘唠A段性允許兩者并存。
5)管理模塊
數(shù)據(jù)治理: 數(shù)倉管理數(shù)據(jù)的主要平臺,包括:
- 元數(shù)據(jù)管理
- 數(shù)據(jù)質(zhì)量管理
- 血緣關(guān)系管理
- 數(shù)據(jù)安全、權(quán)限管理
任務(wù)管理:
離線任務(wù)管理、調(diào)度:
- 包含管道任務(wù)、SQL任務(wù)、Shell任務(wù)等形態(tài),數(shù)倉場景中SQL任務(wù)占整體任務(wù)的絕大多數(shù)
- 需要基于SQL自動生成任務(wù)之間的依賴關(guān)系,并且按照任務(wù)之間的依賴關(guān)系和優(yōu)先級調(diào)度任務(wù)
流式任務(wù)管理:
流式任務(wù)發(fā)布、監(jiān)控、重啟等操作
五、寫在最后
致此,在線教育大數(shù)據(jù)營銷平臺實踐第一篇文章已經(jīng)結(jié)束,下篇文章筆者會闡述在大數(shù)據(jù)平臺建設(shè)的初期,如何將數(shù)據(jù)倉庫和神策分析系統(tǒng)(sa)相結(jié)合來快速滿足運營人員對數(shù)據(jù)分析的需求,開啟數(shù)據(jù)化運營戰(zhàn)略落地的序幕。
本文由 @Tigerhu 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
對數(shù)據(jù)賦能營銷感興趣可以一起交流tigerhu614899
數(shù)據(jù)就是這么樸實無華,比調(diào)研的成本和差錯更小
從零到一搭建這樣一個大數(shù)據(jù)平臺,大概需要什么樣的團隊配置,以及多長時間?
核心模塊數(shù)倉為例前期一個產(chǎn)品、一個數(shù)據(jù)架構(gòu)師、帶領(lǐng)5人左右研發(fā)人員足夠,3月搭建基本架構(gòu),半年基本可用,一年穩(wěn)定。計算引擎模塊取決于公司業(yè)務(wù)訴求,我們是先從離線引擎開始,數(shù)據(jù)應(yīng)用層建議拆到各項目,每個方向需要配置對應(yīng)的產(chǎn)品人員牽引項目,以我們目前大數(shù)據(jù)營銷平臺為例大致30人左右團隊,人員的配置還是要看ROI,不易盲目加人。
贊
公司的數(shù)倉建了半年多了,近期接觸發(fā)現(xiàn)因為整個團隊都沒有經(jīng)驗數(shù)倉建模十分隨意,想請教下像如何建模、元數(shù)據(jù)如何管理,是數(shù)據(jù)架構(gòu)師來給出領(lǐng)導(dǎo)性建議嗎?