數(shù)據(jù)和算法的相愛相殺(一):獲取數(shù)據(jù)要注意什么?
作者接下來將用幾篇文章能夠給大家由淺入深的談談對數(shù)據(jù)和算法的認識,希望大家能對數(shù)據(jù)和算法有基本全面的認識,常用領域和技巧,數(shù)據(jù)的獲取注意事項,常見的算法的理念和用處。本文是第一篇。
大數(shù)據(jù)自2000年以后,隨著數(shù)據(jù)積累和數(shù)據(jù)處理的能力指數(shù)級提高,大數(shù)據(jù)雨后春筍般從理論走向了實踐。尤其是Google、Facebook、Amazon、oracle等公司,在國際上率先開展了大數(shù)據(jù)相關的業(yè)務,或用于公司內(nèi)部的使用或?qū)ν忾_放能力。大數(shù)據(jù)就這么火起來了。
這時大部分局外人尚處于對大數(shù)據(jù)的敬畏無措之中,只知數(shù)據(jù)之大,不知算法之艱。隨著人工智能打開了人們新世界的大門,機器學習尤其是神經(jīng)網(wǎng)絡等算法被大眾所知,算法也終于和數(shù)據(jù)站到同一個高度,被人關注。
時至今日,沒有人敢輕視數(shù)據(jù)和算法的重要性,計算機的信息化將這個物體的世界抽象成了信息,大數(shù)據(jù)將信息抽象成了更小粒度的信息,算法讓我們認識到了數(shù)據(jù)的復雜性和規(guī)律性。算法看到了一般人看不到的東西,算法做出了一般人想不到的預測,算法提出了一般人提不出的警告??梢赃@么說數(shù)據(jù)是人體的軀干,而算法則是人體的大腦。
數(shù)據(jù)在百科的解釋是:
數(shù)據(jù)(data)是事實或觀察的結(jié)果,是對客觀事物的邏輯歸納,是用于表示客觀事物的未經(jīng)加工的的原始素材。
數(shù)據(jù)可以是連續(xù)的值,比如聲音、圖像,稱為模擬數(shù)據(jù)。也可以是離散的,如符號、文字,稱為數(shù)字數(shù)據(jù)。
在計算機系統(tǒng)中,數(shù)據(jù)以二進制信息單元0、1的形式表示。其實數(shù)據(jù)并不神秘,獲取也不艱難,相信瀏覽這篇文章的產(chǎn)品經(jīng)理或多或少的都與數(shù)據(jù)打過交道。我在這文章余下的部分就重點講一下獲取數(shù)據(jù)應該注意的事項。
1、如何讓你的用戶或者客戶樂意分享自己的數(shù)據(jù)
在之前的工業(yè)社會中,為了提高單位時間內(nèi)的產(chǎn)量,我們的產(chǎn)品也來越標準化,進入互聯(lián)網(wǎng)時代這種思維也延續(xù)下來,但是隨著產(chǎn)能過剩和人差異化的需求,我們需要提供越來越多差異化的服務和產(chǎn)品,這就要求我們要足夠了解在互聯(lián)網(wǎng)另一端的人,基于此,千人千面,差異化服務越來越受到到家的重視。而這一切都有一個起點:用戶必須自愿或者不得不分享他們的信息,我認為可以分為以下幾個方面:
- 利益交換——用戶分享了自己的信息能獲得什么,我為什么要給你信息?
- 設計產(chǎn)品信任路徑——你是否在整個用戶歷程中設計了重要的信任構(gòu)建時刻?
- 分享信息不等于泄露隱私,你的產(chǎn)品能否讓用戶覺得你尊重他的隱私——你的產(chǎn)品圍繞隱私的行動是否與自身的價值觀一致?
2、做到數(shù)據(jù)規(guī)整,這在后面的挖掘中至關重要
你的數(shù)據(jù)必須是規(guī)整的,我的建議是在一個平臺內(nèi),或者多個平臺內(nèi)。對于國標數(shù)據(jù)優(yōu)先使用國標數(shù)據(jù),如果沒有國標數(shù)據(jù)則參考行業(yè)標準或者根據(jù)自己的情況實際設立標準,并在不同的平臺之間共用這一套標準,這是為了確保后面可能進行數(shù)據(jù)統(tǒng)一化挖掘的過程中統(tǒng)一計量單位。
同時對于常見的計量單位優(yōu)先使用國內(nèi)的標準,我國的計量單位多與國際計量單位相同,這是一個優(yōu)勢。比如可以用 米
就別用英尺。
還有數(shù)據(jù)形式和規(guī)范,或者說數(shù)據(jù)類型,有些是離散化的數(shù)據(jù)(參加活動的人數(shù)),有些是連續(xù)型的數(shù)據(jù)(比如身高,體重),有些是有限集的,而這些集合基本能被有序排列。統(tǒng)一規(guī)范和形式,這對后面算法的設計至關重要。
在開發(fā)過程中,往往和實際情況下的數(shù)據(jù)分布不同。例如也許你想把用戶按照體重劃分為“胖”“適中”“瘦”三檔,但如果系統(tǒng)開發(fā)時使用的數(shù)據(jù)集里最低用戶的體重是80kg,那最后的分析結(jié)果里可能會有一個160斤的瘦子。
3、數(shù)據(jù)缺失了怎么辦
在我們的產(chǎn)品數(shù)據(jù)庫中數(shù)據(jù)缺失是很正常的,沒有一個產(chǎn)品數(shù)據(jù)百分之百健全的,實際過程中,我們有兩種策略,一種是直接全部丟棄參閱嚴重的數(shù)據(jù)列;另外一種就是想辦法補全這些缺失的數(shù)據(jù),去數(shù)據(jù)列中數(shù)據(jù)的均值填充進行,實際上我們應該清楚無論哪種一種方式,都會對接下來分析的準確性造成影響。
4、為什么要盡可能的提高數(shù)據(jù)的規(guī)模
數(shù)據(jù)規(guī)模影響可以分三個方面來分析:
- 數(shù)據(jù)規(guī)模會影響算法的計算時間,算法的效率決定了用戶在使用過程中的體驗狀況。
- 數(shù)據(jù)規(guī)模對于算法的精準度有至關重要的影響。
- 數(shù)據(jù)達到一定的規(guī)模后可以掩蓋數(shù)據(jù)缺失造成的影響。
5、不要讓數(shù)據(jù)的預測去迎合你
產(chǎn)品或者運營人員經(jīng)常會基于自己的主觀認識,嘗試去預測當前的用戶情況,交易情況等。但是在大量的數(shù)據(jù)集合中,人類基本已經(jīng)喪失了尋找規(guī)律,需找特征的能力,所以不要嘗試和數(shù)據(jù)的預測作對。因為大數(shù)據(jù)總輸入信息間形成的組合關系會快速增加,這讓人很難像對中等數(shù)據(jù)集合那樣能夠?qū)ζ渲幸徊糠謹?shù)據(jù)進行抽樣觀察。
更麻煩的是,特征數(shù)量增加時人類對數(shù)據(jù)的直覺會迅速降低。例如在高維空間里,多元高斯分布并不是沿著均值分布,而是像一個扇貝形狀圍繞在均值附近,這和人們的主觀感受完全不同。在低維空間中建立一個分類器并不難,但是當維度增加時,人類就很難直觀的理解了。(舉例來自直接搬磚,向不知名人士表示感謝)
6、回答一下程序員哥哥們的提問(產(chǎn)品止步)
在JSON數(shù)據(jù)獲取中,ajax后臺獲取數(shù)據(jù)之后,在前臺返回的時候,有時候顯示的是雜亂無章的信息,并非你想要的,其一的原因是一定要 response.getWriter.print() 后response.getWriter.flush (),然后 response.getwriter.close()。
如有不同意見,歡迎拍磚。將繼續(xù)更新,請大家關注。
本文由 @沒空兒 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash ,基于 CC0 協(xié)議
噢