在線教育大數(shù)據(jù)營銷平臺實戰(zhàn)(一):大數(shù)據(jù)平臺構建實戰(zhàn)
編輯導讀:企業(yè)每天生產(chǎn)眾多的數(shù)據(jù),這些數(shù)據(jù)要經(jīng)過分析才能對業(yè)務、運營等產(chǎn)生價值。而大數(shù)據(jù)平臺就是了滿足企業(yè)對于數(shù)據(jù)的各種要求而產(chǎn)生的。如何構建一個大數(shù)據(jù)平臺,取決于企業(yè)的數(shù)據(jù)化程度和面臨的數(shù)據(jù)問題。本文作者將以在線教育為例,分析如何從0到1構建大數(shù)據(jù)平臺,與你分享。
第一篇文章,按照慣例先做個自我介紹。本人目前在一家在線教育公司擔任大數(shù)據(jù)營銷產(chǎn)品負責人,由于一些機緣巧合,我同時負責了數(shù)據(jù)產(chǎn)品線和營銷CRM產(chǎn)品線,因此給了我更多的機會去思考和實踐如何把數(shù)據(jù)與營銷業(yè)務深入融合,將大數(shù)據(jù)的勢能賦予營銷平臺,從而實現(xiàn)業(yè)務的精細化運營和數(shù)據(jù)驅(qū)動。
接下來,針對在線教育業(yè)務場景下的大數(shù)據(jù)營銷平臺實戰(zhàn),我會用一個系列的文章進行系統(tǒng)化闡述。文章可能會涉及:大數(shù)據(jù)平臺搭建、用戶畫像服務體系、CRM線索動態(tài)評分模型及分配算法、數(shù)據(jù)產(chǎn)品實施推廣方案、客戶數(shù)據(jù)中臺(CDP)等多個方向。
本篇主要來講解如何從0到1構建在線教育業(yè)務場景下的大數(shù)據(jù)平臺。
一、企業(yè)數(shù)據(jù)問題診斷
產(chǎn)品是為了滿足需求,是否需要構建大數(shù)據(jù)平臺?以及構建什么樣的大數(shù)據(jù)平臺?取決于企業(yè)的數(shù)據(jù)化程度和面臨的數(shù)據(jù)問題。因此在構建大數(shù)據(jù)平臺之前,需要進行充分地調(diào)研,找準問題才能對癥下藥。對企業(yè)數(shù)據(jù)化程度的評估方法,可以參考下圖所示的數(shù)據(jù)管理能力成熟度模型(DMM)。
通過前期的調(diào)研和分析,我們公司當時處于L2等級,面臨的主要數(shù)據(jù)問題如下:
1)數(shù)據(jù)源分散
- 不利于多數(shù)據(jù)源之間關聯(lián)分析
- 不利于數(shù)據(jù)資產(chǎn)價值的進一步挖掘
- 數(shù)據(jù)孤島嚴重
- 無統(tǒng)一數(shù)據(jù)平臺、數(shù)據(jù)資源得不到匯總沉淀,數(shù)據(jù)無法高效支撐業(yè)務
2)數(shù)據(jù)指標不統(tǒng)一
- 不同業(yè)務部門分而治之
- 準確性、權威性受到質(zhì)疑
- 不利于公司各業(yè)務部門KPI考核
- 指標統(tǒng)計口徑需要標準化
3)數(shù)據(jù)分析效率低
- 各業(yè)務部門占用部分精力數(shù)據(jù)分析工作
- 對于數(shù)據(jù)的需求往往需要從原始數(shù)據(jù)開始
- 對數(shù)據(jù)分析師的支撐不夠
- 無成型完整的數(shù)據(jù)分析工具
4)數(shù)據(jù)管理問題
- 無統(tǒng)一數(shù)據(jù)字典
- 缺少數(shù)據(jù)地圖
- 無元數(shù)據(jù)管理
二、大數(shù)據(jù)平臺業(yè)務架構及Road Map
上一部分已經(jīng)對企業(yè)內(nèi)部數(shù)據(jù)問題進行了全面診斷和問題剖析,接下來我們針對這些問題給出解決的架構方案和路線圖。
1. 數(shù)據(jù)服務體系藍圖
從業(yè)務視角給出了如下的數(shù)據(jù)服務體系藍圖,數(shù)據(jù)服務體系的規(guī)劃需要滿足三點:數(shù)據(jù)服務體系需要覆蓋完整的公司業(yè)務、貫穿業(yè)務的各個階段、伴隨企業(yè)發(fā)展。
在此數(shù)據(jù)服務體系中,處于核心環(huán)節(jié)的是數(shù)據(jù)整體建模和數(shù)據(jù)資產(chǎn)管理,也就是我們熟悉的統(tǒng)一化數(shù)倉建設。結(jié)合在線教育業(yè)務特點,數(shù)倉建設需要滿足三個核心數(shù)據(jù)體系建設:
- 用戶數(shù)據(jù)體系:用戶分析應用、用戶標簽、用戶行為數(shù)據(jù),用戶基本信息主數(shù)據(jù)等;
- 營銷數(shù)據(jù)體系:營銷分析應用、營銷分層標簽、渠道特征數(shù)據(jù)、營收轉(zhuǎn)化相關的主數(shù)據(jù)等;
- 學習數(shù)據(jù)體系:學習分析應用、學習偏好標簽、學習行為數(shù)據(jù)、學習素材基礎數(shù)據(jù)等。
2. 數(shù)據(jù)倉庫架構
數(shù)據(jù)倉庫的層次劃分采用業(yè)界通用的層級劃分方式,包括:ODS、DWD、DWS、ADS層,如下圖所示:
1)ODS層
- 數(shù)據(jù)同步:結(jié)構化數(shù)據(jù)增量或全量同步到數(shù)據(jù)倉庫;
- 結(jié)構化:非結(jié)構化(日志)結(jié)構化處理并存儲到數(shù)據(jù)倉庫;
- 累積歷史、清洗:根據(jù)數(shù)據(jù)業(yè)務需求及稽核和審計要求保存歷史數(shù)據(jù)、數(shù)據(jù)清洗;
2)CDM層
- 組合相關和相似數(shù)據(jù):采用明細寬表,復用關聯(lián)計算,減少數(shù)據(jù)掃描。
- 公共指標統(tǒng)一加工:基于OneData體系構建命名規(guī)范、口徑一致和算法統(tǒng)一的統(tǒng)計指標;建立邏輯匯總寬表。
- 建立一致性維度:建立一致的數(shù)據(jù)分析維表,降低數(shù)據(jù)計算口徑不統(tǒng)一的風險。
3)ADS層
- 個性化指標加工:不公用性、復雜性(指數(shù)型、比值型、排名型等)
- 基于應用的數(shù)據(jù)組裝:大寬表集市、橫表轉(zhuǎn)縱表、趨勢指標串。
3. 數(shù)據(jù)處理流程架構
數(shù)據(jù)處理流程主要包括源數(shù)據(jù)同步清洗、數(shù)據(jù)處理加工、模型運算和數(shù)據(jù)應用?;谠诰€在線教育公司的業(yè)務特點,源數(shù)據(jù)主要包括:渠道數(shù)據(jù)、用戶數(shù)據(jù)、交易數(shù)據(jù)、營銷過程數(shù)據(jù)、學習數(shù)據(jù)、外部第三方數(shù)據(jù)等。
模型引擎包括離線計算引擎和實時計算引擎兩類,需要滿足算法(或規(guī)則)部署、模型訓練和上線、以及對其他業(yè)務系統(tǒng)提供接口服務的能力,比如為CRM系統(tǒng)提供多算法的線索實時分配、用戶畫像分層等服務。在數(shù)據(jù)的匯聚、加工生產(chǎn)、應用的全流程中,全生命周期的數(shù)據(jù)治理不能忽視,因為數(shù)據(jù)的準確定、完整性、一致性直接影響業(yè)務對數(shù)據(jù)系統(tǒng)的可信度。
4. 從0~1構建大數(shù)據(jù)平臺的Road Map
筆者結(jié)合自身在推進大數(shù)據(jù)平臺建設過程中的經(jīng)驗,給出以下路線圖供大家參考。
三、數(shù)據(jù)建模及設計規(guī)范
1. 數(shù)據(jù)模型選型及舉例
維度建模常見的模型有星型模型、雪花模型和星座模型三種,數(shù)據(jù)倉庫設計一般采用星型模型。
星型模型是一種多維的數(shù)據(jù)關系,它由一個事實表(Fact Table)和一組維表(Dimension Table)組成。每個維表都有一個維作為主鍵,所有這些維的主鍵組合成事實表的主鍵。事實表的非主鍵屬性稱為事實(Fact),它們一般都是數(shù)值或其他可以進行計算的數(shù)據(jù)。
事實表:表示對分析主題所屬類型的描述。比如“昨天早上張三在環(huán)球網(wǎng)校花費1000元購買了一個一建零基礎暢學班課程”。那么以購買為主題進行分析,可從這段信息中提取三個維度:時間維度(昨天早上),地點維度(環(huán)球網(wǎng)校), 商品維度(一建零基礎暢學班課程)。通常來說維度表信息比較固定,且數(shù)據(jù)量小。
維度表:表示對分析主題的度量。比如上面那個例子中,1000元就是事實信息。事實表包含了與各維度表相關聯(lián)的外碼,并通過JOIN方式與維度表關聯(lián)。事實表的度量通常是數(shù)值類型,且記會不斷增加,表規(guī)模迅速增長錄數(shù)。
2. 數(shù)倉表設計規(guī)范
1)表命名規(guī)范
數(shù)倉各層表命名規(guī)范如下圖所示。
2)字段級規(guī)范
新增指標的命名參考已有字段命名方式,避免出現(xiàn)同一個字段,10個人有10個命名方法。
字段分類包括:明細,維度,指標,時間,代碼,標志位,命名規(guī)范如下:
- id結(jié)尾表示編號,部分維度編號對應含義需關聯(lián)數(shù)倉相應維度表獲取含義;
- name結(jié)尾表示名稱,多與id對應,解釋其含義,獨立的以name結(jié)尾的字段;
- code結(jié)尾表示代碼字段,對應含義部分可在文檔直接查看,部分需關聯(lián)數(shù)倉代碼表獲?。?/li>
- time結(jié)尾表示時間字段,格式為yyyy-mm-dd hh:mi:ss,從源系統(tǒng)獲取,不作處理;
- money結(jié)尾表示金額,都為系統(tǒng)相應交易金額;
- is_開頭表示標志字段,此字段只有0,1,含義:1是,0否;
- 除以上規(guī)范字段,其他字段根據(jù)中文含義對應生成英文字段,多為一些屬性字段,意義不大。
四、大數(shù)據(jù)平臺技術架構及模塊簡介
在大數(shù)據(jù)平臺的建設過程中,筆者和公司大數(shù)據(jù)架構師共同研究探討后給出的技術架構如下圖所示。
1)安全模塊
作為數(shù)據(jù)平臺來講,保障數(shù)據(jù)安全始終是第一要素。 安全體系的建立主要包含以下幾個方面:
- 數(shù)據(jù)安全規(guī)范、安全等級制定
- 用戶系統(tǒng)
- 基礎組件層權限管理
- 服務層權限管理
- 用戶認證
- 秘鑰管理
- 流程審批
- 數(shù)據(jù)加密脫敏
- 審計
2)監(jiān)控模塊
數(shù)據(jù)安全之外,服務的穩(wěn)定性算是平臺的第二級指標。好的監(jiān)控體系可以幫助預測風險定位問題。例如:
- 提前預判磁盤容量
- 定位內(nèi)存、CPU資源問題
- 發(fā)現(xiàn)異常任務
- 節(jié)點宕機等問題
- 查看該各服務負載,評估資源
3)存儲模塊
存儲模塊屬于基礎組件模塊,主要采用hadoop生態(tài)系統(tǒng)的相關組件。面向不同的應用場景選擇一種組件,例如:
- hive: 離線數(shù)倉
- HBase:KV存儲,可用于高度聚合后的固定指標,應對有較高并發(fā)請求的場景
- Druid:面向OLAP場景,能夠提供亞秒級、較高請求量且需要鉆取能力的OLAP功能
- Impala: 在數(shù)倉數(shù)據(jù)基礎上提供更高效的查詢分析能力,適合即席查詢場景,但是并不能處理更高的請求量。
4)計算模塊
Yarn做統(tǒng)一資源管理,Spark或者Flink都可以作為統(tǒng)一流、批處理框架。或者階段性允許兩者并存。
5)管理模塊
數(shù)據(jù)治理: 數(shù)倉管理數(shù)據(jù)的主要平臺,包括:
- 元數(shù)據(jù)管理
- 數(shù)據(jù)質(zhì)量管理
- 血緣關系管理
- 數(shù)據(jù)安全、權限管理
任務管理:
離線任務管理、調(diào)度:
- 包含管道任務、SQL任務、Shell任務等形態(tài),數(shù)倉場景中SQL任務占整體任務的絕大多數(shù)
- 需要基于SQL自動生成任務之間的依賴關系,并且按照任務之間的依賴關系和優(yōu)先級調(diào)度任務
流式任務管理:
流式任務發(fā)布、監(jiān)控、重啟等操作
五、寫在最后
致此,在線教育大數(shù)據(jù)營銷平臺實踐第一篇文章已經(jīng)結(jié)束,下篇文章筆者會闡述在大數(shù)據(jù)平臺建設的初期,如何將數(shù)據(jù)倉庫和神策分析系統(tǒng)(sa)相結(jié)合來快速滿足運營人員對數(shù)據(jù)分析的需求,開啟數(shù)據(jù)化運營戰(zhàn)略落地的序幕。
本文由 @Tigerhu 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
對數(shù)據(jù)賦能營銷感興趣可以一起交流tigerhu614899
數(shù)據(jù)就是這么樸實無華,比調(diào)研的成本和差錯更小
從零到一搭建這樣一個大數(shù)據(jù)平臺,大概需要什么樣的團隊配置,以及多長時間?
核心模塊數(shù)倉為例前期一個產(chǎn)品、一個數(shù)據(jù)架構師、帶領5人左右研發(fā)人員足夠,3月搭建基本架構,半年基本可用,一年穩(wěn)定。計算引擎模塊取決于公司業(yè)務訴求,我們是先從離線引擎開始,數(shù)據(jù)應用層建議拆到各項目,每個方向需要配置對應的產(chǎn)品人員牽引項目,以我們目前大數(shù)據(jù)營銷平臺為例大致30人左右團隊,人員的配置還是要看ROI,不易盲目加人。
贊
公司的數(shù)倉建了半年多了,近期接觸發(fā)現(xiàn)因為整個團隊都沒有經(jīng)驗數(shù)倉建模十分隨意,想請教下像如何建模、元數(shù)據(jù)如何管理,是數(shù)據(jù)架構師來給出領導性建議嗎?