聊一聊數(shù)據(jù)報(bào)表/數(shù)據(jù)分析的【對(duì)數(shù)】日常
編輯導(dǎo)語(yǔ):互聯(lián)網(wǎng)時(shí)代,數(shù)據(jù)分析的重要性不言而喻,數(shù)據(jù)分析也貫穿著整個(gè)工作的過(guò)程,本篇文章作者分享了數(shù)據(jù)分析的對(duì)數(shù)日常以及給出了很多可行的方法,希望對(duì)你有幫助。
一、數(shù)據(jù)比對(duì)的痛
“這數(shù)不對(duì)”。
“為什么A這里的數(shù)據(jù)和B的數(shù)據(jù)不一致?”
“為什么平時(shí)這個(gè)數(shù)是C今天變成了D?”
“為什么這么高?”亦或是“為什么這么低?”
——【我的對(duì)數(shù)日?!?/p>
一旦有人對(duì)某數(shù)據(jù)提出質(zhì)疑,就會(huì)開始令所有人崩潰的對(duì)數(shù)。
尤其是經(jīng)營(yíng)分析會(huì)、月度會(huì)議期間,數(shù)據(jù)團(tuán)隊(duì)面臨反復(fù)且高頻的折磨,不同需求方不同角度都等著回答和解釋。
- 領(lǐng)導(dǎo):不理解,為什么沒有人能給出來(lái)正確的數(shù)據(jù)?
- 業(yè)務(wù):技術(shù)給的結(jié)果不準(zhǔn)…數(shù)據(jù)質(zhì)量差,又不能用,又要自己算,數(shù)據(jù)量太大算不動(dòng)。
- 數(shù)據(jù)團(tuán)隊(duì):數(shù)據(jù)不是我錄的、業(yè)務(wù)數(shù)據(jù)庫(kù)不是我設(shè)計(jì)的、指標(biāo)邏輯也不是我定義的、運(yùn)營(yíng)邏輯和策略調(diào)整對(duì)數(shù)據(jù)的影響我也不知道。數(shù)據(jù)根據(jù)邏輯加工出來(lái)就是這個(gè)樣子,不是你想要的,我該解釋什么?
非常無(wú)辜,非常無(wú)語(yǔ),活還是要干!
不考慮模型設(shè)計(jì)、不講數(shù)據(jù)治理、制度和流程梳、不談組織合理性、不談數(shù)據(jù)意識(shí)和數(shù)據(jù)團(tuán)隊(duì)地位,不與業(yè)務(wù)battle。
落在當(dāng)下,必須要面對(duì)的工作面前,只是想聊一聊“對(duì)數(shù)到底應(yīng)該怎么對(duì)?”
希望通過(guò)這篇文章與數(shù)據(jù)相關(guān)從業(yè)的朋友聊一聊“面對(duì)常態(tài)化數(shù)據(jù)質(zhì)疑的處理方式,在不同的場(chǎng)景下數(shù)據(jù)團(tuán)隊(duì)的觀點(diǎn)輸出”。
二、對(duì)數(shù)對(duì)數(shù),對(duì)的是什么
1. 數(shù)據(jù)比對(duì)的場(chǎng)景
- 新舊指標(biāo)對(duì)比,新指標(biāo)上線替換就應(yīng)用;
- 全新指標(biāo)上線,證實(shí)數(shù)據(jù)準(zhǔn)確;
- 同預(yù)期不符或數(shù)據(jù)波動(dòng)大,進(jìn)行數(shù)據(jù)查驗(yàn);
- 應(yīng)用端數(shù)據(jù)不一致,維度匯總不一致給出解釋;
- 數(shù)據(jù)A和相關(guān)數(shù)據(jù)B不匹配,交叉驗(yàn)證。
2. 數(shù)據(jù)團(tuán)隊(duì)的心態(tài)
數(shù)據(jù)技術(shù)有門檻,但數(shù)據(jù)是公司的數(shù)據(jù)、是業(yè)務(wù)的數(shù)據(jù)。
數(shù)據(jù)本身沒有價(jià)值,數(shù)據(jù)脫離業(yè)務(wù)應(yīng)用,就只是磁盤上的文件而已。
對(duì)數(shù)占用了數(shù)據(jù)團(tuán)隊(duì)大量的時(shí)間和精力,消耗耐心和斗志,這種情況下應(yīng)秉持怎樣的心態(tài)?
下面是數(shù)據(jù)團(tuán)隊(duì)避無(wú)可避的問題:
1)提升團(tuán)隊(duì)數(shù)據(jù)素養(yǎng)
- 對(duì)數(shù)屬于不復(fù)雜但大多數(shù)人做不好事情,好的數(shù)據(jù)團(tuán)隊(duì)人人都是數(shù)據(jù)分析師,具有數(shù)據(jù)思維,懂業(yè)務(wù)。
- 清楚業(yè)務(wù)規(guī)則,懂業(yè)務(wù)數(shù)據(jù)流向。清楚數(shù)據(jù)映射的業(yè)務(wù)流程,識(shí)別數(shù)據(jù)問題的業(yè)務(wù)構(gòu)成。
- 遇到問題知道從什么地方分析原因,知道要看什么數(shù)據(jù)。
2)提升公司數(shù)據(jù)意識(shí)和數(shù)據(jù)產(chǎn)品的可信度
- 數(shù)據(jù)有天然門檻和屏障,如何拉齊各方的認(rèn)知?
- 如何方便用戶去使用數(shù)據(jù)?當(dāng)不缺數(shù)據(jù)的時(shí)候,如何有效使用數(shù)據(jù)?如何給用戶呈現(xiàn)數(shù)據(jù)?
- 產(chǎn)品思維,數(shù)據(jù)是結(jié)果但對(duì)數(shù)據(jù)的理解是主觀的。
- 如何直觀、不引導(dǎo)的客觀呈現(xiàn)數(shù)據(jù)?
3)解放人力實(shí)現(xiàn)自動(dòng)化
- 化被動(dòng)為主動(dòng),怎樣從無(wú)盡的對(duì)數(shù)中抽離。
- 能提前識(shí)別異常、提示變動(dòng)、給出對(duì)照。
- 數(shù)據(jù)穩(wěn)定,線下數(shù)據(jù)走通后,便可以逐步切線上,固化比對(duì)邏輯。
3. 對(duì)數(shù)對(duì)數(shù),對(duì)的是什么
對(duì)數(shù)就是實(shí)際和預(yù)期的彌合,為什么A不是B?
A是數(shù)據(jù)部門輸出的數(shù)據(jù),B可能是之前某版本的數(shù)據(jù)、可能是心理預(yù)期、可能是某業(yè)務(wù)線的手工數(shù)據(jù)、可能是去年同期數(shù)據(jù)、可能是上個(gè)月的數(shù)據(jù)。
解決方案有幾種:證實(shí)“A是對(duì)的”;證否“B是錯(cuò)的”。
證實(shí)”A/B都是對(duì)的,但有cdef造成了兩者的數(shù)據(jù)差異”。
都要給出結(jié)論、對(duì)照和明細(xì)憑據(jù)。
三、通用可復(fù)制的方法
數(shù)據(jù)比對(duì)是有目的的數(shù)據(jù)分析。
著名的咨詢公司Gartner于2013年總結(jié)、歸納、提煉出一套數(shù)據(jù)分析的框架,Gartner把數(shù)據(jù)分析分為四個(gè)層次,分別是:
- 描述性分析(Descriptive Analysis)——發(fā)生了什么?
- 診斷性分析(Diagnostic Analysis) ——為什么會(huì)發(fā)生?
- 預(yù)測(cè)性分析(Predictive Analysis) ——什么可能會(huì)發(fā)生?
- 處方性分析(Prescriptive Analysis) ——該做些什么?
數(shù)據(jù)比對(duì)是描述性分析,即對(duì)數(shù)據(jù)現(xiàn)狀拆解出數(shù)據(jù)依據(jù)。
那么數(shù)據(jù)比對(duì)的過(guò)程,就是描述性數(shù)據(jù)分析的過(guò)程,可按以下順序進(jìn)行:
- 確認(rèn)分析的目的和思路;
- 數(shù)據(jù)準(zhǔn)備、處理及分析;
- 撰寫數(shù)據(jù)結(jié)論及報(bào)告。
下面具體說(shuō)如何操作,讓觀點(diǎn)可執(zhí)行。
1. 確認(rèn)分析的目的和思路
1)假設(shè)驗(yàn)證確認(rèn)分析思路
(1)明確對(duì)照項(xiàng)[A-B]
確定問題,明確目標(biāo),得出A、B哪個(gè)正確?差異原因。
首先明確對(duì)照項(xiàng)A、B的定義,判斷其定義、口徑、算法是否一致?
(2)對(duì)照指標(biāo)數(shù)據(jù)流向及構(gòu)成
對(duì)照數(shù)據(jù)流向,分析數(shù)據(jù)構(gòu)成及計(jì)算過(guò)程。
確認(rèn)比對(duì)項(xiàng),時(shí)間、口徑、統(tǒng)計(jì)粒度,度量和維度做篩選還是過(guò)濾。
(3)收集數(shù)據(jù)進(jìn)行證偽推斷,得出結(jié)論
準(zhǔn)備基礎(chǔ)明細(xì)數(shù)據(jù),導(dǎo)入excel,通過(guò)vlookup、透視表等關(guān)聯(lián)分析,關(guān)系走通,記錄過(guò)程數(shù)據(jù),提供結(jié)果數(shù)據(jù)。
Example:統(tǒng)計(jì)結(jié)果比對(duì)(數(shù)值1vs數(shù)據(jù)2,差異值)、12明細(xì)、差異明細(xì)比較。
Tips:明確分析目的和方案前,別急著到處要數(shù),可能費(fèi)力要了又用不上。
2. 數(shù)據(jù)一致性驗(yàn)證方式
1)基礎(chǔ)認(rèn)識(shí)一致性驗(yàn)證
- 指標(biāo)的設(shè)計(jì)過(guò)程:定義、計(jì)算公式、統(tǒng)計(jì)維度(時(shí)間)、維度含義、屬性定義。
- 指標(biāo)的技術(shù)屬性:技術(shù)方式、數(shù)據(jù)源、更新時(shí)間。
Example 1:實(shí)時(shí)、離線指標(biāo)不一致屬于正常情況,可直接解釋原因:
- 更新時(shí)間天然不同,離線為批處理定時(shí)調(diào)度任務(wù)模式,而實(shí)時(shí)對(duì)數(shù)據(jù)的時(shí)序性有要求,在某些場(chǎng)景并不能保證與離線同等的一致性;
- 計(jì)算邏輯無(wú)法對(duì)齊,離線邏輯相對(duì)復(fù)雜,支持補(bǔ)償邏輯,實(shí)時(shí)處理卻相對(duì)比較簡(jiǎn)單;
- 數(shù)據(jù)源不一致,比如日志在一些場(chǎng)景不能做到完全一致。
Example 2:回款率單位為%,城市結(jié)果值求平均并不等于全國(guó)數(shù)值,也可直接告知業(yè)務(wù)原因。
2)正向驗(yàn)證
- 確認(rèn)是否是業(yè)務(wù)正常變動(dòng),如大促暴漲、廣告行業(yè)的1&2月淡季周期性異常。
- 交叉維度匯總不一致,數(shù)據(jù)缺失向上匯總記錄的處理方式。
3)反向驗(yàn)證
- 任務(wù)是否正常?數(shù)據(jù)是否更新?集群崩潰、任務(wù)失敗、任務(wù)超時(shí)、源數(shù)據(jù)系統(tǒng)字段變更;
- 處理過(guò)程是否正常?數(shù)據(jù)漂移、數(shù)據(jù)發(fā)散、數(shù)據(jù)傾斜;
- 業(yè)務(wù)口徑數(shù)據(jù)和數(shù)據(jù)庫(kù)數(shù)據(jù)映射是否一致?不同含義指標(biāo)取相同名字。
2. 數(shù)據(jù)準(zhǔn)備、處理及分析
1)數(shù)據(jù)準(zhǔn)備
在分析思路確定的基礎(chǔ)上,準(zhǔn)備收集準(zhǔn)備數(shù)據(jù),可能是:系統(tǒng)導(dǎo)出、數(shù)據(jù)提取。
2)數(shù)據(jù)處理(清洗、轉(zhuǎn)化、提取、計(jì)算)
基礎(chǔ)數(shù)據(jù)準(zhǔn)備完畢,按既定的思路計(jì)算、比對(duì),加工需要的可用于分析的數(shù)據(jù)。
3)數(shù)據(jù)分析(數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)挖掘、數(shù)據(jù)呈現(xiàn))
比對(duì)后發(fā)現(xiàn)并分析差異,用適當(dāng)?shù)姆治龇椒肮ぞ撸O大多數(shù)場(chǎng)景Excel足夠),對(duì)處理過(guò)的數(shù)據(jù)進(jìn)行分析,提取有價(jià)值的信息,形成有效結(jié)論。
3. 數(shù)據(jù)結(jié)論及報(bào)告
1)明確結(jié)論
- 哪個(gè)數(shù)據(jù)是準(zhǔn)確的?是什么造成了數(shù)據(jù)差異,數(shù)據(jù)差異的構(gòu)成和占比差異是否合理?
- 是否需要進(jìn)行修正,計(jì)劃、難點(diǎn)分別是什么。
2)結(jié)果呈現(xiàn)
數(shù)據(jù)比對(duì)的報(bào)告不需要精致,能夠做到邏輯清晰,圖表搭配,層次分明。
讓閱讀者一目了然理解差異和差異構(gòu)成就可以進(jìn)行結(jié)果數(shù)值比對(duì)、差異明細(xì)、對(duì)照過(guò)程及明細(xì)。
呈現(xiàn)餅圖和柱形圖足夠了,柱形圖看差異,餅圖看差異構(gòu)成。
四、?數(shù)據(jù)人的下一步
應(yīng)對(duì)被動(dòng)的數(shù)據(jù)比對(duì)之后,如何化被動(dòng)為主動(dòng),進(jìn)行常態(tài)化的數(shù)據(jù)監(jiān)控,不再耗心費(fèi)力疲于應(yīng)對(duì),提升數(shù)據(jù)健康度,對(duì)數(shù)據(jù)異動(dòng)監(jiān)控提示,實(shí)現(xiàn)數(shù)據(jù)可用可查有提示可預(yù)警。
唯一且艱難的道路:有數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)是基礎(chǔ),在制定數(shù)據(jù)質(zhì)量計(jì)劃的標(biāo)準(zhǔn)上,進(jìn)行周期性的數(shù)據(jù)質(zhì)量盤點(diǎn)和數(shù)據(jù)治理!
這條道路需要數(shù)據(jù)團(tuán)隊(duì)有決心、信心,有足夠的耐心和體力,去細(xì)致打磨適合企業(yè)的數(shù)據(jù)標(biāo)準(zhǔn)。
需要對(duì)每個(gè)數(shù)據(jù)域、數(shù)據(jù)實(shí)體、數(shù)據(jù)項(xiàng),甚至到字段、屬性,定義數(shù)據(jù)標(biāo)準(zhǔn),核實(shí)數(shù)據(jù)質(zhì)量。
1. 數(shù)據(jù)質(zhì)量
(GB/T 36344-2018 數(shù)據(jù)質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn))
Example:
- 完整性:指數(shù)據(jù)元素和數(shù)據(jù)記錄完成性,例如:字段是否存在空值,指標(biāo)數(shù)據(jù)維度是否足夠支撐業(yè)務(wù)分析。
- 準(zhǔn)確性:指數(shù)據(jù)可信度,例如:是否數(shù)據(jù)正確、格式合規(guī)、唯一性、無(wú)臟數(shù)據(jù)。
- 一致性:指相同數(shù)據(jù)一致性和關(guān)聯(lián)數(shù)據(jù)一致性,如:相同指標(biāo)在不同場(chǎng)景下數(shù)值是否一致。
- 時(shí)效性:指基于時(shí)間段的正確性、基于時(shí)間點(diǎn)及時(shí)性、時(shí)序性,例如:實(shí)時(shí)能否保證1分鐘以內(nèi)延時(shí),離線能否保證每天9點(diǎn)定時(shí)更新。
(GB/T 36344-2018 數(shù)據(jù)質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)-數(shù)據(jù)質(zhì)量評(píng)價(jià)過(guò)程)
2. 數(shù)據(jù)清洗
在建立數(shù)據(jù)規(guī)范的基礎(chǔ)上,就可以進(jìn)行數(shù)據(jù)質(zhì)量提升的行動(dòng),也就是“數(shù)據(jù)清洗”。
數(shù)據(jù)清洗,就是從數(shù)據(jù)庫(kù)表中更正和刪除不準(zhǔn)確的數(shù)據(jù)。
1)數(shù)據(jù)清洗
- 識(shí)別數(shù)據(jù)問題;
- 評(píng)估問題及解決方案;
- 清洗計(jì)劃:更正、刪除、合并、替換、補(bǔ)齊;
- 數(shù)據(jù)應(yīng)用及周期性質(zhì)量評(píng)估清。
2)數(shù)據(jù)清洗實(shí)踐要點(diǎn)
- 數(shù)據(jù)問題是業(yè)務(wù)數(shù)據(jù)問題,需要多方人員參與,全面的考慮上下游聯(lián)動(dòng)影響,包括產(chǎn)生數(shù)據(jù)的、使用數(shù)據(jù)的。
- 提升源端質(zhì)量是根本之法,增加系統(tǒng)界面端和數(shù)據(jù)庫(kù)輸入的的限制,如某些字段非空校驗(yàn)、數(shù)據(jù)類型校驗(yàn)、唯一約束等。
- 做好備份!做好備份!做好備份!
3. 監(jiān)控預(yù)警
監(jiān)控預(yù)警是化被動(dòng)為主動(dòng)的方法,可根據(jù)數(shù)據(jù)質(zhì)量規(guī)則制定監(jiān)控策略。
通過(guò)數(shù)據(jù)質(zhì)量監(jiān)控工具來(lái)提示數(shù)據(jù)異?;驍?shù)據(jù)波動(dòng),來(lái)確保對(duì)業(yè)務(wù)數(shù)據(jù)穩(wěn)定的掌控感和保證數(shù)據(jù)的準(zhǔn)確性,問題處理的及時(shí)性。
質(zhì)量規(guī)則不再多說(shuō),可以聊一聊波動(dòng)性,什么樣的指標(biāo)波動(dòng)可以看作是“異常”呢?
指標(biāo)波動(dòng)不可怕,數(shù)據(jù)波動(dòng)是業(yè)務(wù)發(fā)生的正常情況,業(yè)務(wù)產(chǎn)生自然會(huì)發(fā)生數(shù)據(jù)變化。
比如每周的銷售額肯定不一樣,脫離業(yè)務(wù)場(chǎng)景沒法談數(shù)據(jù)波動(dòng)。
但像之前都1000w,這周只有200w,是不是就屬于異常狀態(tài)?
監(jiān)控可以根據(jù)公司業(yè)務(wù)情況和數(shù)據(jù)情況來(lái)綜合評(píng)定,通過(guò)絕對(duì)值預(yù)警、相對(duì)值預(yù)警兩方面來(lái)設(shè)定。
具體的方法有:絕對(duì)值、同比環(huán)比、周期平滑、假設(shè)檢驗(yàn)(3σ原則)、時(shí)間序列、算法模型。
4. 提前準(zhǔn)備
在新需求的設(shè)計(jì)過(guò)程中,就提前準(zhǔn)備數(shù)據(jù)比對(duì)的工作。
評(píng)估不同線上線下、離線實(shí)時(shí)的差異,找出可能產(chǎn)生問題的原因并解決,技術(shù)架構(gòu)方案選擇,或預(yù)評(píng)估差異。
5. 一些提醒
1)再次強(qiáng)調(diào):業(yè)務(wù)、業(yè)務(wù)、業(yè)務(wù)
數(shù)據(jù)必須和業(yè)務(wù)結(jié)合才有意義,熟悉業(yè)務(wù)才能看到數(shù)據(jù)背后隱藏的信息。
缺乏對(duì)行業(yè)、公司業(yè)務(wù)認(rèn)知,數(shù)據(jù)應(yīng)用和數(shù)據(jù)分析結(jié)果都會(huì)出現(xiàn)偏離,變成自嗨或者空中樓閣。
要懂上下游數(shù)據(jù),也要弄清楚公司所在行業(yè)結(jié)構(gòu),對(duì)行業(yè)的上游和下游的經(jīng)營(yíng)情況有大致的了解。
2)數(shù)據(jù)敏感度
數(shù)據(jù)本身是客觀的,但被解讀出來(lái)的數(shù)據(jù)是主觀的。
同樣的數(shù)據(jù)由不同的人分析很可能得出完全相反的結(jié)論,所以一定不能提前帶著觀點(diǎn)去分析。
Example:比如指標(biāo)預(yù)警沒有合適方法,可暫定波動(dòng)值超過(guò)5%預(yù)警。
如果一個(gè)變量符合正態(tài)分布,則其95%的值會(huì)落到均值左右二個(gè)方差內(nèi)。
3)迭代化思維
業(yè)務(wù)是不斷調(diào)整和發(fā)展的,依托的系統(tǒng)和數(shù)據(jù)也是不斷迭代變化,相應(yīng)指標(biāo)也需要隨著業(yè)務(wù)不斷調(diào)整,更加精確的度量業(yè)務(wù)。
4)精細(xì)度控制好,不要追求極細(xì)
細(xì)分是深入的分析的基礎(chǔ),但不要追求極細(xì),細(xì)分意味著復(fù)雜,要判斷公司團(tuán)隊(duì)數(shù)據(jù)意識(shí)和業(yè)務(wù)精細(xì)化管理是否到了匹配的階段。
本文由 @申墨揚(yáng) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于CCO協(xié)議。
作為文科生一名來(lái)說(shuō),看見數(shù)據(jù)這兩個(gè)字就難受。
好家伙!看完文章已經(jīng)開始頭大了,看到數(shù)據(jù)就開始頭疼
數(shù)據(jù)人,數(shù)據(jù)魂,又是學(xué)習(xí)數(shù)據(jù)分析的一天,加油!沖沖沖