從大數(shù)據(jù)的發(fā)展史,看數(shù)據(jù)中臺(tái)的核心價(jià)值
編輯導(dǎo)語(yǔ):自從數(shù)據(jù)中臺(tái)提出以后,各行各業(yè)都開(kāi)始推出關(guān)于中臺(tái)的應(yīng)用和落實(shí);數(shù)據(jù)中臺(tái)的核心價(jià)值是什么?所有公司都適合做數(shù)據(jù)中臺(tái)嗎?本文作者詳細(xì)分析了大數(shù)據(jù)下的數(shù)據(jù)中臺(tái)。
“數(shù)據(jù)中臺(tái)”是進(jìn)今年比較火的一個(gè)詞,正在做數(shù)字化轉(zhuǎn)型的傳統(tǒng)型公司都會(huì)首選做數(shù)據(jù)中天項(xiàng)目,建設(shè)數(shù)據(jù)中臺(tái)嫣然成為傳統(tǒng)企業(yè)數(shù)字轉(zhuǎn)型的首選。
但為什么要做中臺(tái)、好處是什么、能給企業(yè)帶來(lái)什么價(jià)值、是不是所有公司都適合做數(shù)據(jù)中臺(tái),這是隨之而來(lái)的問(wèn)題。
一、大數(shù)據(jù)發(fā)展的歷史
上個(gè)世紀(jì)90年代開(kāi)始出現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)概念,他幫助企業(yè)做出經(jīng)營(yíng)分析決策,例如在銷(xiāo)售行業(yè)的門(mén)店管理中,如何使單個(gè)門(mén)店的利益最大化,就需要分析每個(gè)商品的銷(xiāo)售、庫(kù)存數(shù)據(jù),按照不同的時(shí)間周期:每日、每周、每月,找到商品銷(xiāo)售規(guī)律以及關(guān)聯(lián)影響,然后制定出合理的商品采購(gòu)計(jì)劃和促銷(xiāo)活動(dòng),這些都是依賴(lài)與大量的數(shù)據(jù)分析。
比爾.恩門(mén)給出的數(shù)據(jù)倉(cāng)庫(kù)定義:數(shù)據(jù)倉(cāng)庫(kù)是在企業(yè)管理和決策中面向主題的集成的、與時(shí)間相關(guān)的,不可修改的數(shù)據(jù)集合。
所以數(shù)據(jù)倉(cāng)庫(kù)是會(huì)按照主題去集成數(shù)據(jù),你可以把主題理解成一個(gè)目錄。主題是不會(huì)輕易改變,所以劃分主題時(shí)要盡量做到與業(yè)務(wù)相關(guān),且容易區(qū)分?jǐn)?shù)據(jù)劃分規(guī)則。
進(jìn)入互聯(lián)網(wǎng)時(shí)代后,數(shù)據(jù)規(guī)模前所未有的快速增長(zhǎng):
- 例如:抖音、微信,每天都在產(chǎn)生千億級(jí)的用戶(hù)行為數(shù)據(jù),同時(shí)數(shù)據(jù)結(jié)構(gòu)也在變得復(fù)雜多樣化,有結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)產(chǎn)生;
- 例如:app、web的埋點(diǎn)數(shù)據(jù)、后臺(tái)日志數(shù)據(jù)。
這些特點(diǎn)都是傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)所難以承載的。
所以hadoop出現(xiàn)了,他有兩個(gè)優(yōu)勢(shì):
- 完全分布式,易擴(kuò)展,而且使用廉價(jià)的計(jì)算機(jī)就可以集成一個(gè)計(jì)算、存儲(chǔ)能力很強(qiáng)的集群,滿(mǎn)足海量數(shù)據(jù)處理需求;
- 弱化數(shù)據(jù)格式,數(shù)據(jù)集成到hadoop后,數(shù)據(jù)模型與數(shù)據(jù)存儲(chǔ)分離,在數(shù)據(jù)使用時(shí),按照不同的數(shù)據(jù)模型讀取數(shù)據(jù),滿(mǎn)足多種數(shù)據(jù)結(jié)構(gòu)的分析需求。
隨著hadoop技術(shù)成熟,出現(xiàn)了數(shù)據(jù)湖的概念,數(shù)據(jù)湖的出現(xiàn)我認(rèn)為標(biāo)志這hadoop是走向商業(yè)化成熟的標(biāo)志,企業(yè)可以基于hadoop構(gòu)建數(shù)據(jù)湖,將數(shù)據(jù)作為企業(yè)核心資產(chǎn)。
接下來(lái)如何讓數(shù)據(jù)的加工能夠像流水線一樣作業(yè),大數(shù)據(jù)平臺(tái)的概念就被提出來(lái)了,就是為了提升研發(fā)的效率,降低數(shù)據(jù)研發(fā)的門(mén)檻,讓數(shù)據(jù)像流水線一樣被加工。
大數(shù)據(jù)平臺(tái)服務(wù)的對(duì)象是數(shù)據(jù)研發(fā)人員,可分為數(shù)據(jù)集成、數(shù)據(jù)模型開(kāi)發(fā)、數(shù)據(jù)測(cè)試、數(shù)據(jù)運(yùn)維,底層是以HADOOP為代表的大數(shù)據(jù)框架,包含,存儲(chǔ)、計(jì)算、資源調(diào)配(HDFS、MapReduce、yarn)。
大數(shù)據(jù)平臺(tái)就像流水線設(shè)備,數(shù)據(jù)就是被加工的內(nèi)容,最后產(chǎn)出指標(biāo),呈現(xiàn)在各BI或其他的數(shù)據(jù)產(chǎn)品中,隨著經(jīng)濟(jì)、業(yè)務(wù)快速增長(zhǎng),業(yè)務(wù)人員也對(duì)數(shù)據(jù)采集響應(yīng)要求變快,數(shù)據(jù)指標(biāo)共享也逐漸變多,逐漸又出現(xiàn)了數(shù)據(jù)中臺(tái)概念。
前面講的都是數(shù)據(jù)發(fā)展歷史,是為了讓大家明白每一次演變的本質(zhì)都是滿(mǎn)足業(yè)務(wù)需求或者痛點(diǎn)。
數(shù)據(jù)中臺(tái)也是一樣的道理,先說(shuō)下大部分企業(yè)數(shù)據(jù)的痛點(diǎn):煙囪式的業(yè)務(wù)發(fā)展模式,導(dǎo)致數(shù)據(jù)也是煙囪式的發(fā)展,數(shù)據(jù)是割裂的,導(dǎo)致大量的重復(fù)開(kāi)發(fā)、計(jì)算、從而導(dǎo)致研發(fā)效率的浪費(fèi)、計(jì)算存儲(chǔ)資源的浪費(fèi),大數(shù)據(jù)的應(yīng)用成本也越來(lái)越高,比如本人所在公司每年投入的硬件資源都是過(guò)億,同時(shí)這種帶來(lái)的還有不同數(shù)據(jù)應(yīng)用平臺(tái)展示相同指標(biāo)的結(jié)果會(huì)不一致。為了解決這些問(wèn)題,數(shù)據(jù)中臺(tái)的價(jià)值也就出來(lái)了。
數(shù)據(jù)中臺(tái)最核心的價(jià)值:
- 避免數(shù)據(jù)的重復(fù)計(jì)算
- 提升數(shù)據(jù)服務(wù)力
- 提高數(shù)據(jù)共享力
- 將數(shù)據(jù)資產(chǎn)化管理。
最后可以看出,數(shù)據(jù)中臺(tái)是構(gòu)建數(shù)據(jù)湖之上,具備數(shù)據(jù)湖能夠處理多樣化結(jié)構(gòu)的數(shù)據(jù)計(jì)算、存儲(chǔ)能力;數(shù)據(jù)中臺(tái)依賴(lài)于hadoop大數(shù)據(jù)平臺(tái),數(shù)據(jù)中臺(tái)比大數(shù)據(jù)平臺(tái)增加了數(shù)據(jù)治理和數(shù)據(jù)服務(wù)的內(nèi)容;數(shù)據(jù)中臺(tái)借鑒了傳統(tǒng)數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)面向主題的數(shù)據(jù)建模理論,構(gòu)建統(tǒng)一的數(shù)據(jù)共享層。
二、數(shù)據(jù)中臺(tái)與業(yè)務(wù)數(shù)據(jù)相結(jié)合
數(shù)據(jù)中臺(tái)價(jià)值的產(chǎn)生一定要是與業(yè)務(wù)數(shù)據(jù)應(yīng)用場(chǎng)景相結(jié)合,舉個(gè)案例:
保險(xiǎn)行業(yè)的隊(duì)伍管理的增員場(chǎng)景看,主管要促進(jìn)自己的團(tuán)隊(duì)架構(gòu)裂變就需要進(jìn)行增員,在這個(gè)過(guò)程中主管需要分析哪些人適合增員,增員的成功通常需要滿(mǎn)足哪些條件,每日還要對(duì)代理人的增員進(jìn)行效果追蹤。要做這些分析就要用到代理人的行為和業(yè)績(jī)數(shù)據(jù),同時(shí)還要有標(biāo)桿案例數(shù)據(jù),通常這些數(shù)據(jù)都存放在不同的數(shù)據(jù)庫(kù)里面,并且要以日的頻率提供數(shù)據(jù)到頁(yè)面上進(jìn)行展示。
傳統(tǒng)數(shù)據(jù)處理邏輯:各業(yè)務(wù)系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行加工處理,然后將結(jié)果提供給報(bào)表平臺(tái)進(jìn)行展示,但這個(gè)會(huì)出現(xiàn),A報(bào)表和B報(bào)表對(duì)于相同的指標(biāo)可能指標(biāo)結(jié)果不一致,并且各系統(tǒng)之間指標(biāo)重復(fù)計(jì)算。
數(shù)據(jù)中臺(tái)是把各業(yè)務(wù)系統(tǒng)的增員數(shù)據(jù)進(jìn)行匯報(bào),然后統(tǒng)一做數(shù)據(jù)清洗,加工建模,最后以API接口形式提供結(jié)果給應(yīng)用系統(tǒng)在不同的頁(yè)面進(jìn)行展示。既避免了重復(fù)計(jì)算,也提升了開(kāi)發(fā)效率,還提供數(shù)據(jù)共享,同時(shí)也保證了數(shù)據(jù)的一致性。
最后講下數(shù)據(jù)資產(chǎn)化管理,可以分兩塊看:
從面向開(kāi)發(fā)角度看:數(shù)據(jù)中臺(tái)可以提供開(kāi)發(fā)血緣關(guān)系分析和指標(biāo)、標(biāo)簽字典,開(kāi)發(fā)通過(guò)血緣關(guān)系、指標(biāo)、標(biāo)簽字典查詢(xún)可以快速掌握數(shù)據(jù)結(jié)構(gòu),了解業(yè)務(wù)數(shù)據(jù)的邏輯。
從面向業(yè)務(wù)角度看:通過(guò)數(shù)據(jù)中臺(tái)可以產(chǎn)出數(shù)據(jù)資產(chǎn)目錄及報(bào)告,讓數(shù)據(jù)資產(chǎn)以可視化形式展示,管理層了解公司數(shù)據(jù)情況,例如:公司數(shù)據(jù)資產(chǎn)目錄,每個(gè)部門(mén)對(duì)數(shù)據(jù)的使用情況,最核心資產(chǎn)是哪塊。通常都會(huì)有一個(gè)數(shù)據(jù)資產(chǎn)管理平臺(tái)去承載。
不是所有公司都適合做數(shù)據(jù)中臺(tái),要滿(mǎn)足特定條件才適合建立數(shù)據(jù)中臺(tái),以下條件可供參考:
首先公司是否有大量的數(shù)據(jù)應(yīng)用場(chǎng)景,數(shù)據(jù)中臺(tái)自身是不能直接產(chǎn)生業(yè)務(wù)價(jià)值,本質(zhì)是快速支持?jǐn)?shù)據(jù)應(yīng)用,當(dāng)企劃有較多的數(shù)據(jù)應(yīng)用場(chǎng)景時(shí)就考慮;
其次,公司業(yè)務(wù)經(jīng)歷過(guò)一輪野蠻式快速擴(kuò)展,產(chǎn)生大量的數(shù)據(jù),存在較多的業(yè)務(wù)數(shù)據(jù)孤島,需要整合各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進(jìn)行關(guān)聯(lián)分析;
業(yè)務(wù)對(duì)數(shù)據(jù)的需求有明顯提升,數(shù)據(jù)采集要求高,指標(biāo)準(zhǔn)確性,開(kāi)發(fā)團(tuán)隊(duì)面臨大量的數(shù)據(jù)開(kāi)發(fā)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)效率、數(shù)據(jù)成本等問(wèn)題;
企業(yè)面臨經(jīng)營(yíng)困難,需要通過(guò)數(shù)據(jù)實(shí)現(xiàn)新的業(yè)務(wù)突破點(diǎn),提升業(yè)務(wù)運(yùn)營(yíng)效率的時(shí)候。
數(shù)據(jù)中臺(tái)投入大,時(shí)間周期長(zhǎng),說(shuō)的通俗點(diǎn)數(shù)據(jù)中臺(tái)適合有錢(qián)穩(wěn)定的大公司,不適合初創(chuàng)型的小公司。
本文由 @木子姐 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
講的很好,請(qǐng)問(wèn)有相關(guān)的公眾號(hào)嗎,想持續(xù)關(guān)注