產品經理數(shù)據(jù)分析入門(三)- 分析過程
前面的文章我們已經分享了數(shù)據(jù)的指標和采集,這篇文章,我們繼續(xù)分析下數(shù)據(jù)分析中的清洗和驗證、加工內容,希望能幫到大家。
一、數(shù)據(jù)采集
數(shù)據(jù)分析的對象就是數(shù)據(jù),通過數(shù)據(jù)采集來獲得數(shù)據(jù)。數(shù)據(jù)采集在《產品要懂點數(shù)據(jù)分析(一)-數(shù)據(jù)采集和數(shù)據(jù)指標》中已經討論,這里不展開。
二、數(shù)據(jù)清洗
在原始數(shù)據(jù)里面存在著大量錯誤、重復的數(shù)據(jù),如果直接使用有可能會導致分析結果出現(xiàn)嚴重的偏差。數(shù)據(jù)清洗是對“臟數(shù)據(jù)”進行處理,提高數(shù)據(jù)的質量。
常見的“臟數(shù)據(jù)”的類型有錯誤、缺失、重復等。數(shù)據(jù)清洗就是利用糾正數(shù)據(jù)的錯誤、刪除或填充缺失的數(shù)據(jù)、刪除合并重復數(shù)據(jù)等手段,將數(shù)據(jù)整理成合規(guī)范的數(shù)據(jù)。
1. 糾正數(shù)據(jù)錯誤
數(shù)據(jù)錯誤多由數(shù)據(jù)源輸入不規(guī)范導致的。常見的錯誤類型有:
- 數(shù)據(jù)值錯誤。如超過域值(性別出現(xiàn)男、女之外的其他值)、超過范圍(年齡大于150歲)。
- 不合理的值。如拼寫錯誤(姓名出現(xiàn)字母)、數(shù)據(jù)填錯(手機號碼填到身份證號碼字段上了)等。
- 編碼格式錯誤。如全角半角問題、文本編碼問題。
- 數(shù)據(jù)邏輯不一致。如身份證是女的、性別填成男的。
- 單位規(guī)格不一致。如身高“1.75m”和“175cm”、“2019-01-01”和“01/01/2019”。
- 表達方式不一致。如國家“中國”和“中華人民共和國”。
2. 補充/刪除缺失數(shù)據(jù)
并非所有字段缺失都需要處理,如一個學生用戶的工作單位字段是可能為空的。
如何處理缺失的數(shù)據(jù),需要綜合考慮填充難度、數(shù)據(jù)重要性、缺失情況來綜合考慮。
- 如果填充很容易,則直接進行填充。如知道身份證號碼,填充年齡字段。
- 如果數(shù)據(jù)不重要,且缺失數(shù)據(jù)較少,則直接填充默認值或者刪除對應的數(shù)據(jù)(行)。
- 如果數(shù)據(jù)不重要,但缺失比較嚴重,則直接刪除數(shù)據(jù)屬性字段(列)。
- 如果數(shù)據(jù)重要,則可以通過計算的方式算出可能的值進行填充,也可以結合業(yè)務和現(xiàn)有數(shù)據(jù)推斷可能的值。
- 如果數(shù)據(jù)重要,但是沒辦法計算,則就只能人工進行填充了。
要注意空值對數(shù)據(jù)處理的影響。假設有10個用戶,兩個月收入為0,另外八個為10000。那么要考慮用戶月收入是否真的為0??赡苡脩羰I(yè)了沒工作,可能是用戶沒填。那么在求平均值時,如果是用戶失業(yè)了的情況,則平均收入為:( 0 * 2 + 10000 * 8 ) / 10。如果用戶沒填則要剔除兩個用戶,應該這么計算:(10000 * 8) / 8。
3. 合并刪除重復數(shù)據(jù)
出現(xiàn)重復數(shù)據(jù)的原因很多,經常是表達不一致導致的。
重復數(shù)據(jù)往往并不是一模一樣一式多份的數(shù)據(jù)。所以,對于數(shù)據(jù)相似程度的判斷是很有必要的。如手機設備“iPhone X”和“iPhone 10”是一樣的數(shù)據(jù),卻是兩個不一樣的表達。是否是重復數(shù)據(jù)要結合數(shù)據(jù)本身和業(yè)務進行分析。
三、數(shù)據(jù)驗證
數(shù)據(jù)經過處理之后,有部分數(shù)據(jù)被更改、填充、刪除,更有甚者原始數(shù)據(jù)就存在問題。在進行分析前,需要進行數(shù)據(jù)驗證。
1. 交叉驗證
如果有其他相關數(shù)據(jù),或者其他數(shù)據(jù)源,可以聯(lián)合多個表、多個字段進行交叉分析。
通過身份證信息可以驗證用戶性別、年齡等信息。甚至通過對用戶行為的分析,可以推斷用戶的性別,然后再進行驗證。
2. 人工抽查
對于一些重要的數(shù)據(jù),還可以通過人工抽查的方式進行驗證。抽取一定量的數(shù)據(jù)樣本進行人工檢查,根據(jù)抽查結果推斷數(shù)據(jù)樣本的數(shù)據(jù)質量。
例如,隨機抽取1000條數(shù)據(jù),錯誤2條。那么推斷錯誤率為0.2%左右。再比對這個錯誤率是否符合分析的要求。
常見的數(shù)據(jù)抽取方式有:
- 隨機抽取。從數(shù)據(jù)樣本中隨機抽取一定量的數(shù)據(jù)。
- 等距抽取。按一定距離抽取數(shù)據(jù),沒間隔一定數(shù)量的樣本抽取一次。
- 分層抽取。將同一類型的數(shù)據(jù)樣本分層多個層次,如高收入群、中收入群、低收入群,然后根據(jù)每個層次的占比抽取一定量的數(shù)據(jù)。
- 分類抽取。將不同類型的數(shù)據(jù)樣本根據(jù)不同的類型進行分類,如學生群體、教師群體、職工群體,然后在每個分類中抽取一定量的數(shù)據(jù)。
四、數(shù)據(jù)加工
在數(shù)據(jù)清洗后,我們得到了一個完整正確的數(shù)據(jù)。但是數(shù)據(jù)源和數(shù)據(jù)分析所需要的數(shù)據(jù)并不完全一致,在開始分析前。還需要將部分數(shù)據(jù)進行加工。
數(shù)據(jù)拆分
從數(shù)據(jù)字段中抽取需要的數(shù)據(jù)內容。如從身份證中抽取出生年月日、從手機型號中抽取手機品牌。
數(shù)據(jù)合并
數(shù)據(jù)合并是數(shù)據(jù)拆分的逆操作,將多個字段合并成一個字段。如將出生年、月、日三個字段合并成出生日期一個字段。
數(shù)據(jù)匹配
從不同的表中匹配到需要的信息組成新的數(shù)據(jù)表。
如用訂單表匹配用戶信息表,可以得到一個訂單的區(qū)域表。
結構轉換
將數(shù)據(jù)表的結構進行轉換,主要是為了方便后續(xù)數(shù)據(jù)處理。
數(shù)據(jù)計算
對數(shù)據(jù)進行簡單的加減乘除、平均、加權等計算。產生新的字段或者新的數(shù)據(jù)表。
數(shù)據(jù)轉換
根據(jù)分析的需要將字段進行計算和轉換。如將出生年月轉換成年齡,將廣東、湖南轉換成華南區(qū)等。
本文由 @林海舟 原創(chuàng)發(fā)布于人人都是產品經理,未經許可,禁止轉載
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!