5個方面談談,數(shù)據(jù)中臺應該具備哪些功能?
數(shù)據(jù)中臺是什么?應該具備哪些功能?本文作者通過梳理分析,從六個方面對數(shù)據(jù)中臺進行了拆解,與大家分享。
自從阿里巴巴引入中臺以后,中臺在國內(nèi)行業(yè)持續(xù)高熱不退,高潮迭起。從獵聘網(wǎng)、boss直聘上直接搜索中臺產(chǎn)品經(jīng)理、中臺架構師等,可以看到各個大小公司都在招聘相關人員,組建團隊。
市面上BAT等大型互聯(lián)網(wǎng)公司也有關于中臺的文章,但是其中更多都在講述中臺解決的問題,其中數(shù)據(jù)中臺究竟應該包括哪些功能比較少在描述。
數(shù)據(jù)中臺作為企業(yè)的基礎平臺,貫徹了整個數(shù)據(jù)生命周期,但是中臺的內(nèi)容并不是從最近在開始,歷史上數(shù)據(jù)湖、數(shù)據(jù)管理平臺等都是或多或少涉及到相關內(nèi)容,本文嘗試將數(shù)據(jù)中臺分拆為大家熟悉的產(chǎn)品和功能。
中臺與傳統(tǒng)的軟件、產(chǎn)品是存在較大區(qū)別的,確切地說,中臺不是獨立產(chǎn)品,中臺本身是一套方法論+組織+工具集合,本文重點集中在工具集合部分。
數(shù)據(jù)中臺是什么?
一、數(shù)據(jù)匯聚平臺
匯聚平臺主要是從數(shù)據(jù)存儲角度來表述,指將原始數(shù)據(jù)進行集中存放,便于后續(xù)使用的讀取使用。
數(shù)據(jù)匯聚平臺的主要目標是將不同來源的異構數(shù)據(jù)存放到數(shù)據(jù)倉庫中。企業(yè)一般數(shù)據(jù)分成幾類:
- 業(yè)務數(shù)據(jù),指企業(yè)業(yè)務辦理過程中產(chǎn)生的數(shù)據(jù),比如訂單數(shù)據(jù)、客戶數(shù)據(jù)、商品數(shù)據(jù)、供應鏈數(shù)據(jù)。這類數(shù)據(jù)由業(yè)務信息系統(tǒng)產(chǎn)生,已存放在現(xiàn)有信息系統(tǒng)中,比如ERP系統(tǒng)、CRM系統(tǒng)等。
- 在線監(jiān)測數(shù)據(jù),比如企業(yè)自有媒體上部署代碼能夠獲得用戶媒體行為日志數(shù)據(jù);或者傳感器實時產(chǎn)生的監(jiān)測數(shù)據(jù)。這類數(shù)據(jù)需要實時在線服務接收并記錄相應的日志數(shù)據(jù)。
- 第三方平臺數(shù)據(jù),數(shù)據(jù)存在第三方平臺,比如微信公眾號、支付寶等平臺數(shù)據(jù)。這類數(shù)據(jù)平臺往往提供API能進行數(shù)據(jù)拉取。
數(shù)據(jù)匯聚,或者稱作ETL,將不同的業(yè)務系統(tǒng)的數(shù)據(jù)加載到數(shù)據(jù)倉庫中。數(shù)據(jù)匯聚有多種方式,按照數(shù)據(jù)匯聚的傳輸方式,可以分為文件傳輸、數(shù)據(jù)抽取、消息推送等方式。
數(shù)據(jù)匯聚平臺依托于基礎支撐軟件和基礎網(wǎng)絡設施,通過圖形化的配置界面實現(xiàn)分布的、異構的、跨網(wǎng)絡的各場景數(shù)據(jù)匯聚,主要結(jié)構如下:
二、數(shù)據(jù)治理平臺
數(shù)據(jù)治理的主要目標確保數(shù)據(jù)滿足標準,標準主要有兩個方面:
- 正確性;
- 描述語言一致性
因此數(shù)據(jù)治理平臺主要包括兩個層次:
第一層:數(shù)據(jù)清洗,確保數(shù)據(jù)正確性,將數(shù)據(jù)中錯誤的數(shù)據(jù)排斥。包括清洗規(guī)則算法管理、數(shù)據(jù)分布查看。
第二層:字段體系統(tǒng)一,將不同來源的同一語義的字段進行名稱和值的統(tǒng)一。主要包括語義標準命名管理、字段體系管理、字段映射管理等。
三、數(shù)據(jù)加工平臺
加工平臺承擔了數(shù)據(jù)字段、數(shù)據(jù)指標的衍生計算任務,為數(shù)據(jù)開發(fā)人員提供可視化或者可編碼的環(huán)境進行加工規(guī)則的管理和實施,是將數(shù)據(jù)資產(chǎn)化的重要環(huán)節(jié)。數(shù)據(jù)加工平臺完成的典型任務有用戶標簽計算、ID打通計算、電商典型購買指標計算等。
數(shù)據(jù)加工平臺主要包括:體系指標管理、計算模型管理;
- 指標體系管理:指標體系、指標的定義、增刪改查等;
- 計算模型管理:計算模型定義、調(diào)度等配置管理。比如標簽的任務、ID計算的任務等。
數(shù)據(jù)加工平臺形成不同業(yè)務含義域,形成企業(yè)的數(shù)據(jù)地圖。這些域中的數(shù)據(jù)都是可以進行直接使用的正確數(shù)據(jù)。
四、數(shù)據(jù)資產(chǎn)管理平臺
數(shù)據(jù)資產(chǎn)管理實際上是從元數(shù)據(jù)角度展現(xiàn)關聯(lián)關系和統(tǒng)計量,本質(zhì)上是數(shù)據(jù)字典的圖形化版本,阿里有多少數(shù)據(jù)、如何存儲、數(shù)據(jù)之間關系如何、如何找、如何用都可以從資產(chǎn)地圖找到答案,蠻形象的,從網(wǎng)上資料看,其設計還是值得借鑒,以下是一些界面截圖。
數(shù)據(jù)資產(chǎn)管理平臺,主要包括兩個部分:數(shù)據(jù)看板、數(shù)據(jù)地圖。
五、自助統(tǒng)計分析平臺
中臺作為企業(yè)數(shù)據(jù)的基礎平臺,面向?qū)ο髲墓纠习宓骄唧w一線業(yè)務人員,其數(shù)據(jù)統(tǒng)計、分析需求區(qū)別較大,如果每一個都定制開發(fā),基本上是一個不可完成的任務。
自助統(tǒng)計分析平臺的定位是,使用者可以通過平臺選擇需要的數(shù)據(jù)域和數(shù)據(jù)表,選擇需要的指標、維度、過濾條件以此為基礎進行統(tǒng)計分析。
在建設過程中,自助統(tǒng)計分析平臺不一定需要重新建設,市面上有很多成熟產(chǎn)品可以使用,進行對接。比如帆軟、達芬奇和supset等,這些產(chǎn)品具體就不進一步說明,網(wǎng)上有很多相應資料。
六、數(shù)據(jù)供應平臺
數(shù)據(jù)供應平臺就是將數(shù)據(jù)業(yè)務化,包括了與業(yè)務相關的、可復用的一些公共技術組件或產(chǎn)品,如數(shù)據(jù)目錄、數(shù)據(jù)標簽、數(shù)據(jù)分析、數(shù)據(jù)開放接口、機器學習算法模型等,它們可以使用SAAS方式直接對外提供服務,也可以以更小粒度如API、消息接口、文件接口、服務接口、SDK軟件包等方式只提供組件能力或數(shù)據(jù)服務,內(nèi)部或外部第三方應用不必關心底層數(shù)據(jù)準備情況,直接調(diào)用數(shù)據(jù)服務模塊對外提供的服務接口,就可以方便進行二次開發(fā),借以增強自身的能力。
目前數(shù)據(jù)供應平臺更多指以微服務,API方式對業(yè)務系統(tǒng)直接提供數(shù)據(jù)業(yè)務服務,數(shù)據(jù)供應平臺類似一個API的開放市場,包括API注冊、發(fā)布、搜索、調(diào)用支持等。
除了上面內(nèi)容,本身這些功能的生產(chǎn)過程可視化也是重要的功能模塊。
本文由 @瘦子的天空 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
- 目前還沒評論,等你發(fā)揮!