建議收藏 | 企業(yè)究竟該如何落地?cái)?shù)據(jù)治理?
編輯導(dǎo)語:你是否想要了解企業(yè)在傳統(tǒng)數(shù)據(jù)平臺(tái)使用數(shù)據(jù)時(shí)會(huì)遇見哪些常見問題或挑戰(zhàn)、什么是數(shù)據(jù)治理、治理范疇是什么、如何落地?cái)?shù)據(jù)治理等問題呢?本篇文章的作者將詳細(xì)地為大家講解這些問題,一起來看看吧!
在傳統(tǒng)信息架構(gòu)階段,各個(gè)部門根據(jù)各自的業(yè)務(wù)需求的需要,在不同的時(shí)期不同的技術(shù)環(huán)境下建設(shè)出各自的信息系統(tǒng),從而出現(xiàn)了一個(gè)個(gè)“信息孤島”式應(yīng)用。
隨著大數(shù)據(jù)時(shí)代的到來,為解決系統(tǒng)孤島的現(xiàn)象,現(xiàn)如今各行各業(yè)都在進(jìn)行大數(shù)據(jù)平臺(tái)的建設(shè),都想通過大數(shù)據(jù)的能力實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型,而數(shù)據(jù)治理作為實(shí)現(xiàn)企業(yè)數(shù)據(jù)價(jià)值的第一步,也就越來越被重視。
實(shí)際上,大數(shù)據(jù)平臺(tái)的建設(shè)本質(zhì)還是數(shù)據(jù)的建設(shè),企業(yè)只有保證數(shù)據(jù)的可見、可用、易用、可運(yùn)營(yíng),才能盡快依靠數(shù)據(jù)成為重要的生產(chǎn)力。
然而,企業(yè)在傳統(tǒng)數(shù)據(jù)平臺(tái)碰到的所有問題,在大數(shù)據(jù)平臺(tái)也有可能遇到。且隨著數(shù)據(jù)量級(jí)的變化,大數(shù)據(jù)平臺(tái)必然還會(huì)產(chǎn)生新的問題。
一、企業(yè)使用數(shù)據(jù)時(shí)遇到的常見問題和挑戰(zhàn)
那么,企業(yè)在傳統(tǒng)數(shù)據(jù)平臺(tái)使用數(shù)據(jù)時(shí)會(huì)遇見哪些常見問題或挑戰(zhàn)呢?
為幫助你快速理解,下面我將通過一個(gè)真實(shí)案例進(jìn)行切入。
數(shù)據(jù)分析師:“老大,昨天會(huì)議上你說的供應(yīng)商評(píng)價(jià)場(chǎng)景,我感覺目前數(shù)據(jù)存在問題。你看 10 年前上的系統(tǒng)與去年上的新系統(tǒng)供應(yīng)商編碼、物料編碼、人員編碼、數(shù)據(jù)單位都不一致,根本關(guān)聯(lián)不起來。
就拿其中一個(gè)指標(biāo)來說吧,近 3 年的及時(shí)到貨量 = 及時(shí)到貨數(shù)量 / 到貨數(shù)量,目前我們連這個(gè)簡(jiǎn)單的場(chǎng)景都做不了。因?yàn)楫?dāng)時(shí)編碼沒有定規(guī)則,企業(yè)沒有制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),不僅這個(gè)場(chǎng)景做不了,涉及需要大量歷史數(shù)據(jù)訓(xùn)練 AI 模型的場(chǎng)景也無法實(shí)現(xiàn)?!?/p>
老大:“他們沒有上主數(shù)據(jù)系統(tǒng)以此保證主數(shù)據(jù)的一致性嗎?也沒有人定義標(biāo)準(zhǔn)?看來這個(gè)坑不小呀。下面我們抓緊建立一套數(shù)據(jù)質(zhì)量體系吧,針對(duì)不符合規(guī)范的內(nèi)容,通過郵件定時(shí)發(fā)送給業(yè)務(wù)部門負(fù)責(zé)人。通知發(fā)送后,如果再出現(xiàn)問題那就是業(yè)務(wù)部門的事情了,要不然老板還懷疑我們的能力不行,這個(gè)鍋我們不背?!?/p>
算法工程師:“老大,要訓(xùn)練的銷量預(yù)測(cè)數(shù)據(jù)感覺有問題,問了一圈業(yè)務(wù)領(lǐng)域的人,就沒有一個(gè)對(duì)歷史數(shù)據(jù)全局能說明白的,每個(gè)人都只知道自己的那一塊數(shù)據(jù)。我看了一下,營(yíng)銷數(shù)據(jù)、訂單數(shù)據(jù)、采購(gòu)數(shù)據(jù)、供應(yīng)鏈數(shù)據(jù)統(tǒng)計(jì)口徑都不一致。我已經(jīng)很盡力地拉了幾次會(huì)議了,可每次組織會(huì)議時(shí),大家都有時(shí)間的情況不多,所以這個(gè)事情部門之間就推來推去,都想讓其他部門改,最后會(huì)議都是以不了了之收?qǐng)觥!?/p>
研發(fā)工程師:“老大,昨天采購(gòu)那邊好像改了什么字段或數(shù)據(jù),導(dǎo)致下游的報(bào)表數(shù)據(jù)都出現(xiàn)了問題,今晚又得加班了,主要是現(xiàn)在還不清楚問題到底在哪?”
通過以上這段對(duì)話可知,數(shù)據(jù)治理一般存在以下 4 種挑戰(zhàn):
第一,數(shù)據(jù)不可知:作為業(yè)務(wù)人員/企業(yè)管理者不清楚數(shù)據(jù)與業(yè)務(wù)之間的關(guān)系到底是什么,對(duì)于數(shù)據(jù)資產(chǎn)完全不清晰。
第二,數(shù)據(jù)不可控:現(xiàn)有數(shù)據(jù)質(zhì)量不高,導(dǎo)致業(yè)務(wù)人員的工作瑣碎,工作量巨大,且容易出錯(cuò)。
第三,數(shù)據(jù)不可?。?/strong>業(yè)務(wù)人員無法根據(jù)真實(shí)需求從數(shù)據(jù)源中快速提取數(shù)據(jù),導(dǎo)致業(yè)務(wù)需求無法快速被滿足。
第四,數(shù)據(jù)不關(guān)聯(lián):因各個(gè)數(shù)據(jù)之間沒有任何關(guān)聯(lián)性,導(dǎo)致數(shù)據(jù)難以支撐企業(yè)實(shí)際業(yè)務(wù)。
也正是因?yàn)樗褂玫臄?shù)據(jù)存在一系列的問題,且問題還在不斷涌現(xiàn),所以企業(yè)有必要對(duì)數(shù)據(jù)進(jìn)行治理,以此提升數(shù)據(jù)的價(jià)值,并為企業(yè)實(shí)現(xiàn)數(shù)字化戰(zhàn)略打好基礎(chǔ)。
既然數(shù)據(jù)治理如此重要,下面我們就一起來看看到底什么是數(shù)據(jù)治理?數(shù)據(jù)治理的范疇包含哪些?到底如何落地?cái)?shù)據(jù)治理?
二、什么是數(shù)據(jù)治理?治理范疇是什么?
數(shù)據(jù)治理是一種帶有強(qiáng)烈目的的實(shí)踐活動(dòng),它以數(shù)據(jù)為核心對(duì)象,涉及政府、企業(yè)、個(gè)人等各類參與主體,覆蓋數(shù)據(jù)全生命周期中的各種過程和狀態(tài),利用手段和活動(dòng)釋放、保護(hù)數(shù)據(jù)的價(jià)值。
學(xué)習(xí)了數(shù)據(jù)治理的概念后,我通過一張數(shù)據(jù)治理“4W1H”模型圖說明數(shù)據(jù)治理的范疇,以幫助你快速理解。
通過上圖,我們已經(jīng)很清晰地知道數(shù)據(jù)治理范疇包含了哪些。然而,隨著業(yè)務(wù)不斷生成海量數(shù)據(jù),并將其轉(zhuǎn)移到云中,數(shù)據(jù)管理動(dòng)態(tài)的基本方式也在不斷發(fā)生變化,因此,在提升大數(shù)據(jù)治理能力時(shí),企業(yè)需要額外特別關(guān)注以下 5 個(gè)管理范疇:
(1)風(fēng)險(xiǎn)管理
人們擔(dān)心敏感信息可能會(huì)暴露給未授權(quán)的個(gè)人/系統(tǒng)、安全漏洞、已未知人員在錯(cuò)誤的情況下訪問數(shù)據(jù),為此,各組織都在尋求將這種風(fēng)險(xiǎn)降到最低的方法。一旦系統(tǒng)遭遇破壞,就需要使用額外形式的保護(hù)方式(如加密)來混淆數(shù)據(jù)對(duì)象的嵌入信息,以此保護(hù)數(shù)據(jù)。
此外,還需要其他工具支持訪問管理、識(shí)別敏感數(shù)據(jù)資產(chǎn),并圍繞其保護(hù)創(chuàng)建策略。
(2)數(shù)據(jù)增值
隨著企業(yè)創(chuàng)建、更新和流化數(shù)據(jù)資產(chǎn)的速度不斷提高,雖然云平臺(tái)能夠處理更高的數(shù)據(jù)速度、數(shù)據(jù)容量和數(shù)據(jù)多樣性,卻仍需要引入控制和機(jī)制以便快速驗(yàn)證高速數(shù)據(jù)流的質(zhì)量,這很有必要。
(3)數(shù)據(jù)管理
采用外部產(chǎn)生的數(shù)據(jù)源和數(shù)據(jù)流(包括來自第三方的付費(fèi)數(shù)據(jù))的需求,意味著應(yīng)該做好不相信所有外部數(shù)據(jù)源的準(zhǔn)備。可能需要引入記錄數(shù)據(jù)血緣、分類和元數(shù)據(jù)? 的工具,以幫助員工(特別是數(shù)據(jù)消費(fèi)者)根據(jù)他們對(duì)數(shù)據(jù)資產(chǎn)生成方式的了解確定數(shù)據(jù)可用性。
(4)數(shù)據(jù)發(fā)現(xiàn)
將數(shù)據(jù)移動(dòng)到任何類型的數(shù)據(jù)湖(基于云的或本地的)都有可能失去對(duì)已移動(dòng)的數(shù)據(jù)資產(chǎn)、其內(nèi)容的特征和元數(shù)據(jù)的詳細(xì)信息的跟蹤。因此,評(píng)估數(shù)據(jù)資產(chǎn)內(nèi)容和敏感性(無論數(shù)據(jù)在哪里)的能力變得非常重要。
(5)隱私和法規(guī)
法規(guī)遵從性要求可審計(jì)和可衡量的標(biāo)準(zhǔn)和程序,以確保符合內(nèi)部數(shù)據(jù)政策和外部政府法規(guī)。將數(shù)據(jù)遷移到云意味著組織需要工具來執(zhí)行、監(jiān)視和報(bào)告遵從性,并確保正確的人員和服務(wù)對(duì)正確的數(shù)據(jù)具有訪問和權(quán)限。
掌握了數(shù)據(jù)治理的概念、管理范疇后,那么企業(yè)如何落地?cái)?shù)據(jù)治理呢?下面一一為你揭曉。
三、如何落地?cái)?shù)據(jù)治理?
在落地?cái)?shù)據(jù)治理過程中,企業(yè)往往需要經(jīng)過如下三個(gè)階段:
1. 整體規(guī)劃階段
在這個(gè)階段,數(shù)據(jù)管理經(jīng)常使用的兩大理論是 DCMM、DMBok,在國(guó)內(nèi),企業(yè)主要采用的是 DCMM 方法論體系。
在數(shù)據(jù)治理整體規(guī)劃階段,企業(yè)需要通過 6 步走策略進(jìn)行落地:
- 現(xiàn)狀調(diào)研與需求分析:通過收集資料、現(xiàn)場(chǎng)采訪了解業(yè)務(wù)現(xiàn)狀、信息化現(xiàn)狀等,再通過數(shù)據(jù)分析,形成現(xiàn)狀與差距評(píng)估報(bào)告。
- 藍(lán)圖規(guī)劃:通過問題盤點(diǎn),制定愿景使命與目標(biāo)、治理路線、各類體系。
- 平臺(tái)建設(shè):實(shí)施方案策劃、總體推進(jìn)計(jì)劃輸出、資源規(guī)劃。
- 摸家底:需要輸出各類定準(zhǔn)表標(biāo)準(zhǔn)文檔。
- 落平臺(tái):企業(yè)各類數(shù)據(jù)相關(guān)人員需要按照制定的相關(guān)標(biāo)準(zhǔn)進(jìn)行執(zhí)行。
- 抓運(yùn)營(yíng):通過數(shù)據(jù)質(zhì)檢平臺(tái)進(jìn)行檢核,對(duì)不滿足的數(shù)據(jù)要求對(duì)應(yīng)部門整改。
2. 調(diào)研、定框架、落標(biāo)準(zhǔn)階段:輸出標(biāo)準(zhǔn)階段產(chǎn)出物
在調(diào)研、定框架、落標(biāo)準(zhǔn)階段,就需要輸出各類標(biāo)準(zhǔn)階段產(chǎn)出物。這類標(biāo)準(zhǔn)產(chǎn)出物主要分為行業(yè)標(biāo)準(zhǔn)、國(guó)際標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn)、業(yè)務(wù)標(biāo)準(zhǔn)等,如果涉及技術(shù)中、產(chǎn)品中的各個(gè)模塊時(shí),它們可以再進(jìn)行具體劃分。
如下截圖是我給一家大型企業(yè)落地?cái)?shù)據(jù)標(biāo)準(zhǔn)過程中梳理的各類標(biāo)準(zhǔn)文檔,如果你想獲取對(duì)應(yīng)資料,歡迎關(guān)注公眾號(hào)進(jìn)行了解:
3. 標(biāo)準(zhǔn)落地階段
數(shù)據(jù)標(biāo)準(zhǔn)梳理完了,企業(yè)就需要落實(shí)到數(shù)據(jù)開發(fā)、數(shù)據(jù)運(yùn)營(yíng)的各個(gè)環(huán)節(jié),只有這樣才能構(gòu)成一個(gè)完整的數(shù)據(jù)生命周期管理。
(1)主數(shù)據(jù)開發(fā)
在主數(shù)據(jù)開發(fā)過程中,我們需要通過主數(shù)據(jù)平臺(tái)進(jìn)行數(shù)據(jù)的模型開發(fā)、數(shù)據(jù)采集、收據(jù)分發(fā)與訂閱、主數(shù)據(jù)的申請(qǐng)、數(shù)據(jù)接入等。
(2)數(shù)倉(cāng)建設(shè)
在數(shù)倉(cāng)建設(shè)過程中,我們需要遵循如下標(biāo)準(zhǔn):
- 數(shù)據(jù)開發(fā):數(shù)據(jù)開發(fā)實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)需要遵循數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范化文檔(見產(chǎn)品人棲息地?cái)?shù)倉(cāng)課程)
- 數(shù)據(jù)模型架構(gòu)原則:數(shù)倉(cāng)分層原則、主題域劃分原則、數(shù)據(jù)模型設(shè)計(jì)原則。
- 數(shù)倉(cāng)公共開發(fā)規(guī)范:層次調(diào)用規(guī)范、數(shù)據(jù)類型規(guī)范、數(shù)據(jù)冗余規(guī)范、NULL字段處理規(guī)范、指標(biāo)口徑規(guī)范、數(shù)據(jù)表處理規(guī)范、表的生命周期管理。
- 數(shù)倉(cāng)命名規(guī)范:詞根設(shè)計(jì)規(guī)范、表命名規(guī)范、指標(biāo)命名規(guī)范。
- 數(shù)倉(cāng)各層開發(fā)規(guī)范:ODS 層設(shè)計(jì)規(guī)范、公共維度層設(shè)計(jì)規(guī)范、DWD 明細(xì)層設(shè)計(jì)規(guī)范、DWS 公共匯總層設(shè)計(jì)規(guī)范。
(3)指標(biāo)開發(fā)
在指標(biāo)開發(fā)階段,我們需要遵循原子指標(biāo)、派生指標(biāo)、復(fù)合指標(biāo)的落地標(biāo)準(zhǔn)。
- 全局設(shè)計(jì):用來劃分?jǐn)?shù)據(jù)總線,這是數(shù)據(jù)標(biāo)準(zhǔn),落地成數(shù)據(jù)總線文檔。
- 原子指標(biāo):用來定義業(yè)務(wù)過程中的度量邏輯,比如:SUM、COUNT、MAX、MIN、AVERAGE、STDDEV、VAR 等。
- 派生指標(biāo):落地后屬于真正業(yè)務(wù)意義上的 DWS 層指標(biāo)。
- 復(fù)合指標(biāo):基于指標(biāo)之間的計(jì)算獲得。
在這個(gè)階段,我們需要清晰地知道原子指標(biāo)、派生指標(biāo)之間的關(guān)系,如下圖所示:
當(dāng)然,我們也需要很清晰地知道指標(biāo)與數(shù)倉(cāng)之間的關(guān)系。指標(biāo)是模型層的上層應(yīng)用,在可視化、規(guī)范化指標(biāo)建設(shè)中,它反過來可落地成每個(gè)主題中的模型。
(4)標(biāo)簽開發(fā)
標(biāo)簽根據(jù)來源可以劃分為原子標(biāo)簽、衍生標(biāo)簽、組合標(biāo)簽、自定義標(biāo)簽、算法標(biāo)簽這幾種,如下說明:
- 原子標(biāo)簽:體的原始數(shù)據(jù)維度,它可以是實(shí)體的基本屬性,如性別、年齡、性別等,也可以是經(jīng)過加工的數(shù)據(jù),如會(huì)員等級(jí)、年收入、年消費(fèi)金額等。原子標(biāo)簽一般來源于離線計(jì)算DWS層的一個(gè)結(jié)果表,讀入標(biāo)簽系統(tǒng)中,衍生標(biāo)簽和組合標(biāo)簽基于此計(jì)算。
- 衍生標(biāo)簽:可以通過實(shí)體的主表、輔表或關(guān)系表的基礎(chǔ)字段來創(chuàng)建,支持配置規(guī)則或?qū)?SQL 兩種加工方式。
- 組合標(biāo)簽:屬于規(guī)則類標(biāo)簽,它是多個(gè)標(biāo)簽的組合,由原子標(biāo)簽、衍生標(biāo)簽、自定義標(biāo)簽組合而成。
- 自定義標(biāo)簽:通過導(dǎo)入標(biāo)簽數(shù)據(jù)的方式創(chuàng)建的標(biāo)簽。
- 算法標(biāo)簽:通過機(jī)器學(xué)習(xí)分類學(xué)習(xí)得到的標(biāo)簽。
當(dāng)然,標(biāo)簽也可以根據(jù)內(nèi)容側(cè)和場(chǎng)景主題進(jìn)行劃分。
在實(shí)際落地過程中,我們需要清楚地知道標(biāo)簽的分層邏輯:原子標(biāo)簽 ——組合標(biāo)簽—— 業(yè)務(wù)標(biāo)簽,且要清楚標(biāo)簽也需要遵循一定的規(guī)范。
然而,現(xiàn)實(shí)中很多企業(yè)在給實(shí)體打標(biāo)簽時(shí),因?yàn)闆]有遵循一定的規(guī)范,使得標(biāo)簽越來越不精準(zhǔn),業(yè)務(wù)人員也感覺越來越力不從心。久而久之,隨著標(biāo)簽越來越多,業(yè)務(wù)人員也就更加不知所措,標(biāo)簽的維護(hù)成本也越來越高……
比如,很多企業(yè)給一個(gè)實(shí)體(用戶/企業(yè))打了很多標(biāo)簽,在使用時(shí)卻并不清楚當(dāng)初標(biāo)簽是如何定義的,能用于什么場(chǎng)景。此時(shí),如果發(fā)生“標(biāo)簽爆炸”,那么這套系統(tǒng)就會(huì)被玩壞了。
(5)數(shù)據(jù)運(yùn)營(yíng)
在數(shù)據(jù)運(yùn)營(yíng)階段,我們需要對(duì)任何模型進(jìn)行數(shù)據(jù)質(zhì)檢,最終生成對(duì)應(yīng)的數(shù)據(jù)報(bào)告,且報(bào)送對(duì)應(yīng)業(yè)務(wù)線需要對(duì)發(fā)生問題的數(shù)據(jù)進(jìn)行處理,這就形成了一套從標(biāo)準(zhǔn)、制定檢核任務(wù)、根據(jù)質(zhì)檢結(jié)果進(jìn)行 check、對(duì)數(shù)據(jù)進(jìn)行梳理或者發(fā)現(xiàn)缺少的標(biāo)準(zhǔn)進(jìn)行補(bǔ)充的完善 PDCA 數(shù)據(jù)治理閉環(huán)。
數(shù)據(jù)運(yùn)營(yíng)階段我們要做哪些事情呢 ?比如數(shù)據(jù)格式不規(guī)范、空值、數(shù)據(jù)趨勢(shì)波動(dòng)趨勢(shì)、值域等問題,我們可以通過數(shù)據(jù)質(zhì)檢平臺(tái)進(jìn)行質(zhì)檢。
數(shù)據(jù)質(zhì)檢平臺(tái)主要包括兩方面的能力:技術(shù)側(cè)檢測(cè)規(guī)則、數(shù)據(jù)質(zhì)量。指定檢核規(guī)則需要從數(shù)據(jù)的一致性、唯一性、準(zhǔn)確性、有效性、及時(shí)性、完整性這 6 個(gè)維度進(jìn)行梳理。
如下圖是數(shù)據(jù)的一致性、唯一性、準(zhǔn)確性、有效性、及時(shí)性、完整性案例,建議收藏,在其他地方估計(jì)你很難再找到這么詳細(xì)的數(shù)據(jù)檢核規(guī)則文檔了:
然后,經(jīng)過定時(shí)的任務(wù)調(diào)度,生成數(shù)據(jù)質(zhì)量檢核報(bào)告。在報(bào)告中,我們就可以看到每個(gè)數(shù)據(jù)維度上存在的問題及存在問題的具體數(shù)據(jù),再將對(duì)應(yīng)的數(shù)據(jù)下發(fā)到對(duì)應(yīng)的部門進(jìn)行復(fù)盤,該調(diào)整的調(diào)整,該增加規(guī)范的增加。
四、小結(jié)
企業(yè)從關(guān)注技術(shù)到關(guān)注數(shù)據(jù)治理和運(yùn)營(yíng),是對(duì)數(shù)據(jù)價(jià)值本身的回歸。
因此,在大數(shù)據(jù)時(shí)代,企業(yè)必須盤活業(yè)務(wù)數(shù)據(jù),并構(gòu)建一套從數(shù)據(jù)展示、數(shù)據(jù)分析、數(shù)據(jù)挖掘等多場(chǎng)景的高效應(yīng)用,唯有如此才能在激烈的競(jìng)爭(zhēng)中脫穎而出。這就要求企業(yè)不僅僅需要關(guān)注現(xiàn)在數(shù)據(jù)中臺(tái)化的能力,還需要基于數(shù)據(jù)中臺(tái)在落地?cái)?shù)據(jù)治理過程中做統(tǒng)一的數(shù)據(jù)規(guī)劃。
未來,我相信,隨著大數(shù)據(jù)與人工智能的發(fā)展,越來越多的智能場(chǎng)景將被賦能自動(dòng)化業(yè)務(wù)。
公眾號(hào):產(chǎn)品人棲息地
本文由 @DataSir 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
您好 想請(qǐng)問一下 如何進(jìn)一步溝通?文章中的材料能否分享,謝謝。
專業(yè)
歡迎大家閱讀《一本書講透數(shù)據(jù)治理》,這本書是由我們團(tuán)隊(duì)一起寫的
平臺(tái)的標(biāo)簽體系體系如何搭建呢(不限于用戶的標(biāo)簽)
碼住了碼住了,收藏起學(xué)習(xí)一下,希望能夠有幫助
數(shù)據(jù)標(biāo)準(zhǔn)梳理完,企業(yè)需要落實(shí)到數(shù)據(jù)開發(fā)、數(shù)據(jù)運(yùn)營(yíng)的各個(gè)環(huán)節(jié)