久久艹影院,色又黄又爽18禁免费网站

搜索

APP

起點課堂會員權益

職業(yè)體系課特權

線下行業(yè)大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

產品經理數(shù)據(jù)分析入門（三）- 分析過程

林海舟

2024-09-02

0 評論 923 瀏覽 6 收藏

8 分鐘

前面的文章我們已經分享了數(shù)據(jù)的指標和采集，這篇文章，我們繼續(xù)分析下數(shù)據(jù)分析中的清洗和驗證、加工內容，希望能幫到大家。

一、數(shù)據(jù)采集

數(shù)據(jù)分析的對象就是數(shù)據(jù)，通過數(shù)據(jù)采集來獲得數(shù)據(jù)。數(shù)據(jù)采集在《產品要懂點數(shù)據(jù)分析（一）-數(shù)據(jù)采集和數(shù)據(jù)指標》中已經討論，這里不展開。

二、數(shù)據(jù)清洗

在原始數(shù)據(jù)里面存在著大量錯誤、重復的數(shù)據(jù)，如果直接使用有可能會導致分析結果出現(xiàn)嚴重的偏差。數(shù)據(jù)清洗是對“臟數(shù)據(jù)”進行處理，提高數(shù)據(jù)的質量。

常見的“臟數(shù)據(jù)”的類型有錯誤、缺失、重復等。數(shù)據(jù)清洗就是利用糾正數(shù)據(jù)的錯誤、刪除或填充缺失的數(shù)據(jù)、刪除合并重復數(shù)據(jù)等手段，將數(shù)據(jù)整理成合規(guī)范的數(shù)據(jù)。

1. 糾正數(shù)據(jù)錯誤

數(shù)據(jù)錯誤多由數(shù)據(jù)源輸入不規(guī)范導致的。常見的錯誤類型有：

數(shù)據(jù)值錯誤。如超過域值（性別出現(xiàn)男、女之外的其他值）、超過范圍（年齡大于150歲）。
不合理的值。如拼寫錯誤（姓名出現(xiàn)字母）、數(shù)據(jù)填錯（手機號碼填到身份證號碼字段上了）等。
編碼格式錯誤。如全角半角問題、文本編碼問題。
數(shù)據(jù)邏輯不一致。如身份證是女的、性別填成男的。
單位規(guī)格不一致。如身高“1.75m”和“175cm”、“2019-01-01”和“01/01/2019”。
表達方式不一致。如國家“中國”和“中華人民共和國”。

2. 補充/刪除缺失數(shù)據(jù)

并非所有字段缺失都需要處理，如一個學生用戶的工作單位字段是可能為空的。

如何處理缺失的數(shù)據(jù)，需要綜合考慮填充難度、數(shù)據(jù)重要性、缺失情況來綜合考慮。

如果填充很容易，則直接進行填充。如知道身份證號碼，填充年齡字段。
如果數(shù)據(jù)不重要，且缺失數(shù)據(jù)較少，則直接填充默認值或者刪除對應的數(shù)據(jù)（行）。
如果數(shù)據(jù)不重要，但缺失比較嚴重，則直接刪除數(shù)據(jù)屬性字段（列）。
如果數(shù)據(jù)重要，則可以通過計算的方式算出可能的值進行填充，也可以結合業(yè)務和現(xiàn)有數(shù)據(jù)推斷可能的值。
如果數(shù)據(jù)重要，但是沒辦法計算，則就只能人工進行填充了。

要注意空值對數(shù)據(jù)處理的影響。假設有10個用戶，兩個月收入為0，另外八個為10000。那么要考慮用戶月收入是否真的為0?？赡苡脩羰I(yè)了沒工作，可能是用戶沒填。那么在求平均值時，如果是用戶失業(yè)了的情況，則平均收入為：( 0 * 2 + 10000 * 8 ) / 10。如果用戶沒填則要剔除兩個用戶，應該這么計算：(10000 * 8) / 8。

3. 合并刪除重復數(shù)據(jù)

出現(xiàn)重復數(shù)據(jù)的原因很多，經常是表達不一致導致的。

重復數(shù)據(jù)往往并不是一模一樣一式多份的數(shù)據(jù)。所以，對于數(shù)據(jù)相似程度的判斷是很有必要的。如手機設備“iPhone X”和“iPhone 10”是一樣的數(shù)據(jù)，卻是兩個不一樣的表達。是否是重復數(shù)據(jù)要結合數(shù)據(jù)本身和業(yè)務進行分析。

三、數(shù)據(jù)驗證

數(shù)據(jù)經過處理之后，有部分數(shù)據(jù)被更改、填充、刪除，更有甚者原始數(shù)據(jù)就存在問題。在進行分析前，需要進行數(shù)據(jù)驗證。

1. 交叉驗證

如果有其他相關數(shù)據(jù)，或者其他數(shù)據(jù)源，可以聯(lián)合多個表、多個字段進行交叉分析。

通過身份證信息可以驗證用戶性別、年齡等信息。甚至通過對用戶行為的分析，可以推斷用戶的性別，然后再進行驗證。

2. 人工抽查

對于一些重要的數(shù)據(jù)，還可以通過人工抽查的方式進行驗證。抽取一定量的數(shù)據(jù)樣本進行人工檢查，根據(jù)抽查結果推斷數(shù)據(jù)樣本的數(shù)據(jù)質量。

例如，隨機抽取1000條數(shù)據(jù)，錯誤2條。那么推斷錯誤率為0.2%左右。再比對這個錯誤率是否符合分析的要求。

常見的數(shù)據(jù)抽取方式有：

隨機抽取。從數(shù)據(jù)樣本中隨機抽取一定量的數(shù)據(jù)。
等距抽取。按一定距離抽取數(shù)據(jù)，沒間隔一定數(shù)量的樣本抽取一次。
分層抽取。將同一類型的數(shù)據(jù)樣本分層多個層次，如高收入群、中收入群、低收入群，然后根據(jù)每個層次的占比抽取一定量的數(shù)據(jù)。
分類抽取。將不同類型的數(shù)據(jù)樣本根據(jù)不同的類型進行分類，如學生群體、教師群體、職工群體，然后在每個分類中抽取一定量的數(shù)據(jù)。