聊一聊數(shù)據(jù)報(bào)表/數(shù)據(jù)分析的【對(duì)數(shù)】日常

3 評(píng)論 7092 瀏覽 49 收藏 17 分鐘

編輯導(dǎo)語(yǔ):互聯(lián)網(wǎng)時(shí)代,數(shù)據(jù)分析的重要性不言而喻,數(shù)據(jù)分析也貫穿著整個(gè)工作的過(guò)程,本篇文章作者分享了數(shù)據(jù)分析的對(duì)數(shù)日常以及給出了很多可行的方法,希望對(duì)你有幫助。

一、數(shù)據(jù)比對(duì)的痛

“這數(shù)不對(duì)”。

“為什么A這里的數(shù)據(jù)和B的數(shù)據(jù)不一致?”

“為什么平時(shí)這個(gè)數(shù)是C今天變成了D?”

“為什么這么高?”亦或是“為什么這么低?”

——【我的對(duì)數(shù)日?!?/p>

一旦有人對(duì)某數(shù)據(jù)提出質(zhì)疑,就會(huì)開始令所有人崩潰的對(duì)數(shù)。

尤其是經(jīng)營(yíng)分析會(huì)、月度會(huì)議期間,數(shù)據(jù)團(tuán)隊(duì)面臨反復(fù)且高頻的折磨,不同需求方不同角度都等著回答和解釋。

  • 領(lǐng)導(dǎo):不理解,為什么沒有人能給出來(lái)正確的數(shù)據(jù)?
  • 業(yè)務(wù):技術(shù)給的結(jié)果不準(zhǔn)…數(shù)據(jù)質(zhì)量差,又不能用,又要自己算,數(shù)據(jù)量太大算不動(dòng)。
  • 數(shù)據(jù)團(tuán)隊(duì):數(shù)據(jù)不是我錄的、業(yè)務(wù)數(shù)據(jù)庫(kù)不是我設(shè)計(jì)的、指標(biāo)邏輯也不是我定義的、運(yùn)營(yíng)邏輯和策略調(diào)整對(duì)數(shù)據(jù)的影響我也不知道。數(shù)據(jù)根據(jù)邏輯加工出來(lái)就是這個(gè)樣子,不是你想要的,我該解釋什么?

非常無(wú)辜,非常無(wú)語(yǔ),活還是要干!

不考慮模型設(shè)計(jì)、不講數(shù)據(jù)治理、制度和流程梳、不談組織合理性、不談數(shù)據(jù)意識(shí)和數(shù)據(jù)團(tuán)隊(duì)地位,不與業(yè)務(wù)battle。

落在當(dāng)下,必須要面對(duì)的工作面前,只是想聊一聊“對(duì)數(shù)到底應(yīng)該怎么對(duì)?”

希望通過(guò)這篇文章與數(shù)據(jù)相關(guān)從業(yè)的朋友聊一聊“面對(duì)常態(tài)化數(shù)據(jù)質(zhì)疑的處理方式,在不同的場(chǎng)景下數(shù)據(jù)團(tuán)隊(duì)的觀點(diǎn)輸出”。

二、對(duì)數(shù)對(duì)數(shù),對(duì)的是什么

1. 數(shù)據(jù)比對(duì)的場(chǎng)景

  • 新舊指標(biāo)對(duì)比,新指標(biāo)上線替換就應(yīng)用;
  • 全新指標(biāo)上線,證實(shí)數(shù)據(jù)準(zhǔn)確;
  • 同預(yù)期不符或數(shù)據(jù)波動(dòng)大,進(jìn)行數(shù)據(jù)查驗(yàn);
  • 應(yīng)用端數(shù)據(jù)不一致,維度匯總不一致給出解釋;
  • 數(shù)據(jù)A和相關(guān)數(shù)據(jù)B不匹配,交叉驗(yàn)證。

2. 數(shù)據(jù)團(tuán)隊(duì)的心態(tài)

數(shù)據(jù)技術(shù)有門檻,但數(shù)據(jù)是公司的數(shù)據(jù)、是業(yè)務(wù)的數(shù)據(jù)。

數(shù)據(jù)本身沒有價(jià)值,數(shù)據(jù)脫離業(yè)務(wù)應(yīng)用,就只是磁盤上的文件而已。

對(duì)數(shù)占用了數(shù)據(jù)團(tuán)隊(duì)大量的時(shí)間和精力,消耗耐心和斗志,這種情況下應(yīng)秉持怎樣的心態(tài)?

下面是數(shù)據(jù)團(tuán)隊(duì)避無(wú)可避的問題:

1)提升團(tuán)隊(duì)數(shù)據(jù)素養(yǎng)

  • 對(duì)數(shù)屬于不復(fù)雜但大多數(shù)人做不好事情,好的數(shù)據(jù)團(tuán)隊(duì)人人都是數(shù)據(jù)分析師,具有數(shù)據(jù)思維,懂業(yè)務(wù)。
  • 清楚業(yè)務(wù)規(guī)則,懂業(yè)務(wù)數(shù)據(jù)流向。清楚數(shù)據(jù)映射的業(yè)務(wù)流程,識(shí)別數(shù)據(jù)問題的業(yè)務(wù)構(gòu)成。
  • 遇到問題知道從什么地方分析原因,知道要看什么數(shù)據(jù)。

2)提升公司數(shù)據(jù)意識(shí)和數(shù)據(jù)產(chǎn)品的可信度

  • 數(shù)據(jù)有天然門檻和屏障,如何拉齊各方的認(rèn)知?
  • 如何方便用戶去使用數(shù)據(jù)?當(dāng)不缺數(shù)據(jù)的時(shí)候,如何有效使用數(shù)據(jù)?如何給用戶呈現(xiàn)數(shù)據(jù)?
  • 產(chǎn)品思維,數(shù)據(jù)是結(jié)果但對(duì)數(shù)據(jù)的理解是主觀的。
  • 如何直觀、不引導(dǎo)的客觀呈現(xiàn)數(shù)據(jù)?

3)解放人力實(shí)現(xiàn)自動(dòng)化

  • 化被動(dòng)為主動(dòng),怎樣從無(wú)盡的對(duì)數(shù)中抽離。
  • 能提前識(shí)別異常、提示變動(dòng)、給出對(duì)照。
  • 數(shù)據(jù)穩(wěn)定,線下數(shù)據(jù)走通后,便可以逐步切線上,固化比對(duì)邏輯。

3. 對(duì)數(shù)對(duì)數(shù),對(duì)的是什么

對(duì)數(shù)就是實(shí)際和預(yù)期的彌合,為什么A不是B?

A是數(shù)據(jù)部門輸出的數(shù)據(jù),B可能是之前某版本的數(shù)據(jù)、可能是心理預(yù)期、可能是某業(yè)務(wù)線的手工數(shù)據(jù)、可能是去年同期數(shù)據(jù)、可能是上個(gè)月的數(shù)據(jù)。

解決方案有幾種:證實(shí)“A是對(duì)的”;證否“B是錯(cuò)的”。

證實(shí)”A/B都是對(duì)的,但有cdef造成了兩者的數(shù)據(jù)差異”。

都要給出結(jié)論、對(duì)照和明細(xì)憑據(jù)。

三、通用可復(fù)制的方法

數(shù)據(jù)比對(duì)是有目的的數(shù)據(jù)分析。

著名的咨詢公司Gartner于2013年總結(jié)、歸納、提煉出一套數(shù)據(jù)分析的框架,Gartner把數(shù)據(jù)分析分為四個(gè)層次,分別是:

聊一聊數(shù)據(jù)報(bào)表/數(shù)據(jù)分析的【對(duì)數(shù)】日常

  1. 描述性分析(Descriptive Analysis)——發(fā)生了什么?
  2. 診斷性分析(Diagnostic Analysis) ——為什么會(huì)發(fā)生?
  3. 預(yù)測(cè)性分析(Predictive Analysis) ——什么可能會(huì)發(fā)生?
  4. 處方性分析(Prescriptive Analysis) ——該做些什么?

數(shù)據(jù)比對(duì)是描述性分析,即對(duì)數(shù)據(jù)現(xiàn)狀拆解出數(shù)據(jù)依據(jù)。

那么數(shù)據(jù)比對(duì)的過(guò)程,就是描述性數(shù)據(jù)分析的過(guò)程,可按以下順序進(jìn)行:

  1. 確認(rèn)分析的目的和思路;
  2. 數(shù)據(jù)準(zhǔn)備、處理及分析;
  3. 撰寫數(shù)據(jù)結(jié)論及報(bào)告。

下面具體說(shuō)如何操作,讓觀點(diǎn)可執(zhí)行。

1. 確認(rèn)分析的目的和思路

1)假設(shè)驗(yàn)證確認(rèn)分析思路

(1)明確對(duì)照項(xiàng)[A-B]

確定問題,明確目標(biāo),得出A、B哪個(gè)正確?差異原因。

首先明確對(duì)照項(xiàng)A、B的定義,判斷其定義、口徑、算法是否一致?

(2)對(duì)照指標(biāo)數(shù)據(jù)流向及構(gòu)成

對(duì)照數(shù)據(jù)流向,分析數(shù)據(jù)構(gòu)成及計(jì)算過(guò)程。

確認(rèn)比對(duì)項(xiàng),時(shí)間、口徑、統(tǒng)計(jì)粒度,度量和維度做篩選還是過(guò)濾。

(3)收集數(shù)據(jù)進(jìn)行證偽推斷,得出結(jié)論

準(zhǔn)備基礎(chǔ)明細(xì)數(shù)據(jù),導(dǎo)入excel,通過(guò)vlookup、透視表等關(guān)聯(lián)分析,關(guān)系走通,記錄過(guò)程數(shù)據(jù),提供結(jié)果數(shù)據(jù)。

Example:統(tǒng)計(jì)結(jié)果比對(duì)(數(shù)值1vs數(shù)據(jù)2,差異值)、12明細(xì)、差異明細(xì)比較。

Tips:明確分析目的和方案前,別急著到處要數(shù),可能費(fèi)力要了又用不上。

2. 數(shù)據(jù)一致性驗(yàn)證方式

1)基礎(chǔ)認(rèn)識(shí)一致性驗(yàn)證

  • 指標(biāo)的設(shè)計(jì)過(guò)程:定義、計(jì)算公式、統(tǒng)計(jì)維度(時(shí)間)、維度含義、屬性定義。
  • 指標(biāo)的技術(shù)屬性:技術(shù)方式、數(shù)據(jù)源、更新時(shí)間。

Example 1:實(shí)時(shí)、離線指標(biāo)不一致屬于正常情況,可直接解釋原因:

  • 更新時(shí)間天然不同,離線為批處理定時(shí)調(diào)度任務(wù)模式,而實(shí)時(shí)對(duì)數(shù)據(jù)的時(shí)序性有要求,在某些場(chǎng)景并不能保證與離線同等的一致性;
  • 計(jì)算邏輯無(wú)法對(duì)齊,離線邏輯相對(duì)復(fù)雜,支持補(bǔ)償邏輯,實(shí)時(shí)處理卻相對(duì)比較簡(jiǎn)單;
  • 數(shù)據(jù)源不一致,比如日志在一些場(chǎng)景不能做到完全一致。

Example 2:回款率單位為%,城市結(jié)果值求平均并不等于全國(guó)數(shù)值,也可直接告知業(yè)務(wù)原因。

2)正向驗(yàn)證

  • 確認(rèn)是否是業(yè)務(wù)正常變動(dòng),如大促暴漲、廣告行業(yè)的1&2月淡季周期性異常。
  • 交叉維度匯總不一致,數(shù)據(jù)缺失向上匯總記錄的處理方式。

3)反向驗(yàn)證

  • 任務(wù)是否正常?數(shù)據(jù)是否更新?集群崩潰、任務(wù)失敗、任務(wù)超時(shí)、源數(shù)據(jù)系統(tǒng)字段變更;
  • 處理過(guò)程是否正常?數(shù)據(jù)漂移、數(shù)據(jù)發(fā)散、數(shù)據(jù)傾斜;
  • 業(yè)務(wù)口徑數(shù)據(jù)和數(shù)據(jù)庫(kù)數(shù)據(jù)映射是否一致?不同含義指標(biāo)取相同名字。

2. 數(shù)據(jù)準(zhǔn)備、處理及分析

1)數(shù)據(jù)準(zhǔn)備

在分析思路確定的基礎(chǔ)上,準(zhǔn)備收集準(zhǔn)備數(shù)據(jù),可能是:系統(tǒng)導(dǎo)出、數(shù)據(jù)提取。

2)數(shù)據(jù)處理(清洗、轉(zhuǎn)化、提取、計(jì)算)

基礎(chǔ)數(shù)據(jù)準(zhǔn)備完畢,按既定的思路計(jì)算、比對(duì),加工需要的可用于分析的數(shù)據(jù)。

3)數(shù)據(jù)分析(數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)挖掘、數(shù)據(jù)呈現(xiàn))

比對(duì)后發(fā)現(xiàn)并分析差異,用適當(dāng)?shù)姆治龇椒肮ぞ撸O大多數(shù)場(chǎng)景Excel足夠),對(duì)處理過(guò)的數(shù)據(jù)進(jìn)行分析,提取有價(jià)值的信息,形成有效結(jié)論。

3. 數(shù)據(jù)結(jié)論及報(bào)告

1)明確結(jié)論

  • 哪個(gè)數(shù)據(jù)是準(zhǔn)確的?是什么造成了數(shù)據(jù)差異,數(shù)據(jù)差異的構(gòu)成和占比差異是否合理?
  • 是否需要進(jìn)行修正,計(jì)劃、難點(diǎn)分別是什么。

2)結(jié)果呈現(xiàn)

數(shù)據(jù)比對(duì)的報(bào)告不需要精致,能夠做到邏輯清晰,圖表搭配,層次分明。

讓閱讀者一目了然理解差異和差異構(gòu)成就可以進(jìn)行結(jié)果數(shù)值比對(duì)、差異明細(xì)、對(duì)照過(guò)程及明細(xì)。

呈現(xiàn)餅圖和柱形圖足夠了,柱形圖看差異,餅圖看差異構(gòu)成。

四、?數(shù)據(jù)人的下一步

應(yīng)對(duì)被動(dòng)的數(shù)據(jù)比對(duì)之后,如何化被動(dòng)為主動(dòng),進(jìn)行常態(tài)化的數(shù)據(jù)監(jiān)控,不再耗心費(fèi)力疲于應(yīng)對(duì),提升數(shù)據(jù)健康度,對(duì)數(shù)據(jù)異動(dòng)監(jiān)控提示,實(shí)現(xiàn)數(shù)據(jù)可用可查有提示可預(yù)警。

唯一且艱難的道路:有數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)是基礎(chǔ),在制定數(shù)據(jù)質(zhì)量計(jì)劃的標(biāo)準(zhǔn)上,進(jìn)行周期性的數(shù)據(jù)質(zhì)量盤點(diǎn)和數(shù)據(jù)治理!

這條道路需要數(shù)據(jù)團(tuán)隊(duì)有決心、信心,有足夠的耐心和體力,去細(xì)致打磨適合企業(yè)的數(shù)據(jù)標(biāo)準(zhǔn)。

需要對(duì)每個(gè)數(shù)據(jù)域、數(shù)據(jù)實(shí)體、數(shù)據(jù)項(xiàng),甚至到字段、屬性,定義數(shù)據(jù)標(biāo)準(zhǔn),核實(shí)數(shù)據(jù)質(zhì)量。

1. 數(shù)據(jù)質(zhì)量

聊一聊數(shù)據(jù)報(bào)表/數(shù)據(jù)分析的【對(duì)數(shù)】日常

(GB/T 36344-2018 數(shù)據(jù)質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn))

Example:

  1. 完整性:指數(shù)據(jù)元素和數(shù)據(jù)記錄完成性,例如:字段是否存在空值,指標(biāo)數(shù)據(jù)維度是否足夠支撐業(yè)務(wù)分析。
  2. 準(zhǔn)確性:指數(shù)據(jù)可信度,例如:是否數(shù)據(jù)正確、格式合規(guī)、唯一性、無(wú)臟數(shù)據(jù)。
  3. 一致性:指相同數(shù)據(jù)一致性和關(guān)聯(lián)數(shù)據(jù)一致性,如:相同指標(biāo)在不同場(chǎng)景下數(shù)值是否一致。
  4. 時(shí)效性:指基于時(shí)間段的正確性、基于時(shí)間點(diǎn)及時(shí)性、時(shí)序性,例如:實(shí)時(shí)能否保證1分鐘以內(nèi)延時(shí),離線能否保證每天9點(diǎn)定時(shí)更新。

聊一聊數(shù)據(jù)報(bào)表/數(shù)據(jù)分析的【對(duì)數(shù)】日常

(GB/T 36344-2018 數(shù)據(jù)質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)-數(shù)據(jù)質(zhì)量評(píng)價(jià)過(guò)程)

2. 數(shù)據(jù)清洗

在建立數(shù)據(jù)規(guī)范的基礎(chǔ)上,就可以進(jìn)行數(shù)據(jù)質(zhì)量提升的行動(dòng),也就是“數(shù)據(jù)清洗”。

數(shù)據(jù)清洗,就是從數(shù)據(jù)庫(kù)表中更正和刪除不準(zhǔn)確的數(shù)據(jù)。

1)數(shù)據(jù)清洗

  1. 識(shí)別數(shù)據(jù)問題;
  2. 評(píng)估問題及解決方案;
  3. 清洗計(jì)劃:更正、刪除、合并、替換、補(bǔ)齊;
  4. 數(shù)據(jù)應(yīng)用及周期性質(zhì)量評(píng)估清。

2)數(shù)據(jù)清洗實(shí)踐要點(diǎn)

  1. 數(shù)據(jù)問題是業(yè)務(wù)數(shù)據(jù)問題,需要多方人員參與,全面的考慮上下游聯(lián)動(dòng)影響,包括產(chǎn)生數(shù)據(jù)的、使用數(shù)據(jù)的。
  2. 提升源端質(zhì)量是根本之法,增加系統(tǒng)界面端和數(shù)據(jù)庫(kù)輸入的的限制,如某些字段非空校驗(yàn)、數(shù)據(jù)類型校驗(yàn)、唯一約束等。
  3. 做好備份!做好備份!做好備份!

3. 監(jiān)控預(yù)警

監(jiān)控預(yù)警是化被動(dòng)為主動(dòng)的方法,可根據(jù)數(shù)據(jù)質(zhì)量規(guī)則制定監(jiān)控策略。

通過(guò)數(shù)據(jù)質(zhì)量監(jiān)控工具來(lái)提示數(shù)據(jù)異?;驍?shù)據(jù)波動(dòng),來(lái)確保對(duì)業(yè)務(wù)數(shù)據(jù)穩(wěn)定的掌控感和保證數(shù)據(jù)的準(zhǔn)確性,問題處理的及時(shí)性。

質(zhì)量規(guī)則不再多說(shuō),可以聊一聊波動(dòng)性,什么樣的指標(biāo)波動(dòng)可以看作是“異常”呢?

指標(biāo)波動(dòng)不可怕,數(shù)據(jù)波動(dòng)是業(yè)務(wù)發(fā)生的正常情況,業(yè)務(wù)產(chǎn)生自然會(huì)發(fā)生數(shù)據(jù)變化。

比如每周的銷售額肯定不一樣,脫離業(yè)務(wù)場(chǎng)景沒法談數(shù)據(jù)波動(dòng)。

但像之前都1000w,這周只有200w,是不是就屬于異常狀態(tài)?

監(jiān)控可以根據(jù)公司業(yè)務(wù)情況和數(shù)據(jù)情況來(lái)綜合評(píng)定,通過(guò)絕對(duì)值預(yù)警、相對(duì)值預(yù)警兩方面來(lái)設(shè)定。

具體的方法有:絕對(duì)值、同比環(huán)比、周期平滑、假設(shè)檢驗(yàn)(3σ原則)、時(shí)間序列、算法模型。

4. 提前準(zhǔn)備

在新需求的設(shè)計(jì)過(guò)程中,就提前準(zhǔn)備數(shù)據(jù)比對(duì)的工作。

評(píng)估不同線上線下、離線實(shí)時(shí)的差異,找出可能產(chǎn)生問題的原因并解決,技術(shù)架構(gòu)方案選擇,或預(yù)評(píng)估差異。

5. 一些提醒

1)再次強(qiáng)調(diào):業(yè)務(wù)、業(yè)務(wù)、業(yè)務(wù)

數(shù)據(jù)必須和業(yè)務(wù)結(jié)合才有意義,熟悉業(yè)務(wù)才能看到數(shù)據(jù)背后隱藏的信息。

缺乏對(duì)行業(yè)、公司業(yè)務(wù)認(rèn)知,數(shù)據(jù)應(yīng)用和數(shù)據(jù)分析結(jié)果都會(huì)出現(xiàn)偏離,變成自嗨或者空中樓閣。

要懂上下游數(shù)據(jù),也要弄清楚公司所在行業(yè)結(jié)構(gòu),對(duì)行業(yè)的上游和下游的經(jīng)營(yíng)情況有大致的了解。

2)數(shù)據(jù)敏感度

數(shù)據(jù)本身是客觀的,但被解讀出來(lái)的數(shù)據(jù)是主觀的。

同樣的數(shù)據(jù)由不同的人分析很可能得出完全相反的結(jié)論,所以一定不能提前帶著觀點(diǎn)去分析。

Example:比如指標(biāo)預(yù)警沒有合適方法,可暫定波動(dòng)值超過(guò)5%預(yù)警。

如果一個(gè)變量符合正態(tài)分布,則其95%的值會(huì)落到均值左右二個(gè)方差內(nèi)。

3)迭代化思維

業(yè)務(wù)是不斷調(diào)整和發(fā)展的,依托的系統(tǒng)和數(shù)據(jù)也是不斷迭代變化,相應(yīng)指標(biāo)也需要隨著業(yè)務(wù)不斷調(diào)整,更加精確的度量業(yè)務(wù)。

4)精細(xì)度控制好,不要追求極細(xì)

細(xì)分是深入的分析的基礎(chǔ),但不要追求極細(xì),細(xì)分意味著復(fù)雜,要判斷公司團(tuán)隊(duì)數(shù)據(jù)意識(shí)和業(yè)務(wù)精細(xì)化管理是否到了匹配的階段。

 

本文由 @申墨揚(yáng) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于CCO協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 作為文科生一名來(lái)說(shuō),看見數(shù)據(jù)這兩個(gè)字就難受。

    回復(fù)
  2. 好家伙!看完文章已經(jīng)開始頭大了,看到數(shù)據(jù)就開始頭疼

    來(lái)自廣東 回復(fù)
  3. 數(shù)據(jù)人,數(shù)據(jù)魂,又是學(xué)習(xí)數(shù)據(jù)分析的一天,加油!沖沖沖

    來(lái)自廣東 回復(fù)