產(chǎn)品經(jīng)理數(shù)據(jù)分析入門(三)- 分析過(guò)程
前面的文章我們已經(jīng)分享了數(shù)據(jù)的指標(biāo)和采集,這篇文章,我們繼續(xù)分析下數(shù)據(jù)分析中的清洗和驗(yàn)證、加工內(nèi)容,希望能幫到大家。
一、數(shù)據(jù)采集
數(shù)據(jù)分析的對(duì)象就是數(shù)據(jù),通過(guò)數(shù)據(jù)采集來(lái)獲得數(shù)據(jù)。數(shù)據(jù)采集在《產(chǎn)品要懂點(diǎn)數(shù)據(jù)分析(一)-數(shù)據(jù)采集和數(shù)據(jù)指標(biāo)》中已經(jīng)討論,這里不展開(kāi)。
二、數(shù)據(jù)清洗
在原始數(shù)據(jù)里面存在著大量錯(cuò)誤、重復(fù)的數(shù)據(jù),如果直接使用有可能會(huì)導(dǎo)致分析結(jié)果出現(xiàn)嚴(yán)重的偏差。數(shù)據(jù)清洗是對(duì)“臟數(shù)據(jù)”進(jìn)行處理,提高數(shù)據(jù)的質(zhì)量。
常見(jiàn)的“臟數(shù)據(jù)”的類型有錯(cuò)誤、缺失、重復(fù)等。數(shù)據(jù)清洗就是利用糾正數(shù)據(jù)的錯(cuò)誤、刪除或填充缺失的數(shù)據(jù)、刪除合并重復(fù)數(shù)據(jù)等手段,將數(shù)據(jù)整理成合規(guī)范的數(shù)據(jù)。
1. 糾正數(shù)據(jù)錯(cuò)誤
數(shù)據(jù)錯(cuò)誤多由數(shù)據(jù)源輸入不規(guī)范導(dǎo)致的。常見(jiàn)的錯(cuò)誤類型有:
- 數(shù)據(jù)值錯(cuò)誤。如超過(guò)域值(性別出現(xiàn)男、女之外的其他值)、超過(guò)范圍(年齡大于150歲)。
- 不合理的值。如拼寫錯(cuò)誤(姓名出現(xiàn)字母)、數(shù)據(jù)填錯(cuò)(手機(jī)號(hào)碼填到身份證號(hào)碼字段上了)等。
- 編碼格式錯(cuò)誤。如全角半角問(wèn)題、文本編碼問(wèn)題。
- 數(shù)據(jù)邏輯不一致。如身份證是女的、性別填成男的。
- 單位規(guī)格不一致。如身高“1.75m”和“175cm”、“2019-01-01”和“01/01/2019”。
- 表達(dá)方式不一致。如國(guó)家“中國(guó)”和“中華人民共和國(guó)”。
2. 補(bǔ)充/刪除缺失數(shù)據(jù)
并非所有字段缺失都需要處理,如一個(gè)學(xué)生用戶的工作單位字段是可能為空的。
如何處理缺失的數(shù)據(jù),需要綜合考慮填充難度、數(shù)據(jù)重要性、缺失情況來(lái)綜合考慮。
- 如果填充很容易,則直接進(jìn)行填充。如知道身份證號(hào)碼,填充年齡字段。
- 如果數(shù)據(jù)不重要,且缺失數(shù)據(jù)較少,則直接填充默認(rèn)值或者刪除對(duì)應(yīng)的數(shù)據(jù)(行)。
- 如果數(shù)據(jù)不重要,但缺失比較嚴(yán)重,則直接刪除數(shù)據(jù)屬性字段(列)。
- 如果數(shù)據(jù)重要,則可以通過(guò)計(jì)算的方式算出可能的值進(jìn)行填充,也可以結(jié)合業(yè)務(wù)和現(xiàn)有數(shù)據(jù)推斷可能的值。
- 如果數(shù)據(jù)重要,但是沒(méi)辦法計(jì)算,則就只能人工進(jìn)行填充了。
要注意空值對(duì)數(shù)據(jù)處理的影響。假設(shè)有10個(gè)用戶,兩個(gè)月收入為0,另外八個(gè)為10000。那么要考慮用戶月收入是否真的為0??赡苡脩羰I(yè)了沒(méi)工作,可能是用戶沒(méi)填。那么在求平均值時(shí),如果是用戶失業(yè)了的情況,則平均收入為:( 0 * 2 + 10000 * 8 ) / 10。如果用戶沒(méi)填則要剔除兩個(gè)用戶,應(yīng)該這么計(jì)算:(10000 * 8) / 8。
3. 合并刪除重復(fù)數(shù)據(jù)
出現(xiàn)重復(fù)數(shù)據(jù)的原因很多,經(jīng)常是表達(dá)不一致導(dǎo)致的。
重復(fù)數(shù)據(jù)往往并不是一模一樣一式多份的數(shù)據(jù)。所以,對(duì)于數(shù)據(jù)相似程度的判斷是很有必要的。如手機(jī)設(shè)備“iPhone X”和“iPhone 10”是一樣的數(shù)據(jù),卻是兩個(gè)不一樣的表達(dá)。是否是重復(fù)數(shù)據(jù)要結(jié)合數(shù)據(jù)本身和業(yè)務(wù)進(jìn)行分析。
三、數(shù)據(jù)驗(yàn)證
數(shù)據(jù)經(jīng)過(guò)處理之后,有部分?jǐn)?shù)據(jù)被更改、填充、刪除,更有甚者原始數(shù)據(jù)就存在問(wèn)題。在進(jìn)行分析前,需要進(jìn)行數(shù)據(jù)驗(yàn)證。
1. 交叉驗(yàn)證
如果有其他相關(guān)數(shù)據(jù),或者其他數(shù)據(jù)源,可以聯(lián)合多個(gè)表、多個(gè)字段進(jìn)行交叉分析。
通過(guò)身份證信息可以驗(yàn)證用戶性別、年齡等信息。甚至通過(guò)對(duì)用戶行為的分析,可以推斷用戶的性別,然后再進(jìn)行驗(yàn)證。
2. 人工抽查
對(duì)于一些重要的數(shù)據(jù),還可以通過(guò)人工抽查的方式進(jìn)行驗(yàn)證。抽取一定量的數(shù)據(jù)樣本進(jìn)行人工檢查,根據(jù)抽查結(jié)果推斷數(shù)據(jù)樣本的數(shù)據(jù)質(zhì)量。
例如,隨機(jī)抽取1000條數(shù)據(jù),錯(cuò)誤2條。那么推斷錯(cuò)誤率為0.2%左右。再比對(duì)這個(gè)錯(cuò)誤率是否符合分析的要求。
常見(jiàn)的數(shù)據(jù)抽取方式有:
- 隨機(jī)抽取。從數(shù)據(jù)樣本中隨機(jī)抽取一定量的數(shù)據(jù)。
- 等距抽取。按一定距離抽取數(shù)據(jù),沒(méi)間隔一定數(shù)量的樣本抽取一次。
- 分層抽取。將同一類型的數(shù)據(jù)樣本分層多個(gè)層次,如高收入群、中收入群、低收入群,然后根據(jù)每個(gè)層次的占比抽取一定量的數(shù)據(jù)。
- 分類抽取。將不同類型的數(shù)據(jù)樣本根據(jù)不同的類型進(jìn)行分類,如學(xué)生群體、教師群體、職工群體,然后在每個(gè)分類中抽取一定量的數(shù)據(jù)。
四、數(shù)據(jù)加工
在數(shù)據(jù)清洗后,我們得到了一個(gè)完整正確的數(shù)據(jù)。但是數(shù)據(jù)源和數(shù)據(jù)分析所需要的數(shù)據(jù)并不完全一致,在開(kāi)始分析前。還需要將部分?jǐn)?shù)據(jù)進(jìn)行加工。
數(shù)據(jù)拆分
從數(shù)據(jù)字段中抽取需要的數(shù)據(jù)內(nèi)容。如從身份證中抽取出生年月日、從手機(jī)型號(hào)中抽取手機(jī)品牌。
數(shù)據(jù)合并
數(shù)據(jù)合并是數(shù)據(jù)拆分的逆操作,將多個(gè)字段合并成一個(gè)字段。如將出生年、月、日三個(gè)字段合并成出生日期一個(gè)字段。
數(shù)據(jù)匹配
從不同的表中匹配到需要的信息組成新的數(shù)據(jù)表。
如用訂單表匹配用戶信息表,可以得到一個(gè)訂單的區(qū)域表。
結(jié)構(gòu)轉(zhuǎn)換
將數(shù)據(jù)表的結(jié)構(gòu)進(jìn)行轉(zhuǎn)換,主要是為了方便后續(xù)數(shù)據(jù)處理。
數(shù)據(jù)計(jì)算
對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的加減乘除、平均、加權(quán)等計(jì)算。產(chǎn)生新的字段或者新的數(shù)據(jù)表。
數(shù)據(jù)轉(zhuǎn)換
根據(jù)分析的需要將字段進(jìn)行計(jì)算和轉(zhuǎn)換。如將出生年月轉(zhuǎn)換成年齡,將廣東、湖南轉(zhuǎn)換成華南區(qū)等。
本文由 @林海舟 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!