97电影网,欧美人妻久久精品奶水多多,019中文字幕好看日本大片

搜索

APP

起點課堂會員權益

職業(yè)體系課特權

線下行業(yè)大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

數(shù)據(jù)和算法的相愛相殺（一）：獲取數(shù)據(jù)要注意什么？

Data M

2018-08-07

2 評論 4549 瀏覽 21 收藏

9 分鐘

作者接下來將用幾篇文章能夠給大家由淺入深的談談對數(shù)據(jù)和算法的認識，希望大家能對數(shù)據(jù)和算法有基本全面的認識，常用領域和技巧，數(shù)據(jù)的獲取注意事項，常見的算法的理念和用處。本文是第一篇。

大數(shù)據(jù)自2000年以后，隨著數(shù)據(jù)積累和數(shù)據(jù)處理的能力指數(shù)級提高，大數(shù)據(jù)雨后春筍般從理論走向了實踐。尤其是Google、Facebook、Amazon、oracle等公司，在國際上率先開展了大數(shù)據(jù)相關的業(yè)務，或用于公司內(nèi)部的使用或?qū)ν忾_放能力。大數(shù)據(jù)就這么火起來了。

這時大部分局外人尚處于對大數(shù)據(jù)的敬畏無措之中，只知數(shù)據(jù)之大，不知算法之艱。隨著人工智能打開了人們新世界的大門，機器學習尤其是神經(jīng)網(wǎng)絡等算法被大眾所知，算法也終于和數(shù)據(jù)站到同一個高度，被人關注。

時至今日，沒有人敢輕視數(shù)據(jù)和算法的重要性，計算機的信息化將這個物體的世界抽象成了信息，大數(shù)據(jù)將信息抽象成了更小粒度的信息，算法讓我們認識到了數(shù)據(jù)的復雜性和規(guī)律性。算法看到了一般人看不到的東西，算法做出了一般人想不到的預測，算法提出了一般人提不出的警告?？梢赃@么說數(shù)據(jù)是人體的軀干，而算法則是人體的大腦。

數(shù)據(jù)在百科的解釋是：

數(shù)據(jù)(data)是事實或觀察的結(jié)果，是對客觀事物的邏輯歸納，是用于表示客觀事物的未經(jīng)加工的的原始素材。

數(shù)據(jù)可以是連續(xù)的值，比如聲音、圖像，稱為模擬數(shù)據(jù)。也可以是離散的，如符號、文字，稱為數(shù)字數(shù)據(jù)。

在計算機系統(tǒng)中，數(shù)據(jù)以二進制信息單元0、1的形式表示。其實數(shù)據(jù)并不神秘，獲取也不艱難，相信瀏覽這篇文章的產(chǎn)品經(jīng)理或多或少的都與數(shù)據(jù)打過交道。我在這文章余下的部分就重點講一下獲取數(shù)據(jù)應該注意的事項。

1、如何讓你的用戶或者客戶樂意分享自己的數(shù)據(jù)

在之前的工業(yè)社會中，為了提高單位時間內(nèi)的產(chǎn)量，我們的產(chǎn)品也來越標準化，進入互聯(lián)網(wǎng)時代這種思維也延續(xù)下來，但是隨著產(chǎn)能過剩和人差異化的需求，我們需要提供越來越多差異化的服務和產(chǎn)品，這就要求我們要足夠了解在互聯(lián)網(wǎng)另一端的人，基于此，千人千面，差異化服務越來越受到到家的重視。而這一切都有一個起點：用戶必須自愿或者不得不分享他們的信息，我認為可以分為以下幾個方面：

利益交換——用戶分享了自己的信息能獲得什么，我為什么要給你信息？
設計產(chǎn)品信任路徑——你是否在整個用戶歷程中設計了重要的信任構(gòu)建時刻？
分享信息不等于泄露隱私，你的產(chǎn)品能否讓用戶覺得你尊重他的隱私——你的產(chǎn)品圍繞隱私的行動是否與自身的價值觀一致？

2、做到數(shù)據(jù)規(guī)整，這在后面的挖掘中至關重要

你的數(shù)據(jù)必須是規(guī)整的，我的建議是在一個平臺內(nèi)，或者多個平臺內(nèi)。對于國標數(shù)據(jù)優(yōu)先使用國標數(shù)據(jù)，如果沒有國標數(shù)據(jù)則參考行業(yè)標準或者根據(jù)自己的情況實際設立標準，并在不同的平臺之間共用這一套標準，這是為了確保后面可能進行數(shù)據(jù)統(tǒng)一化挖掘的過程中統(tǒng)一計量單位。

同時對于常見的計量單位優(yōu)先使用國內(nèi)的標準，我國的計量單位多與國際計量單位相同，這是一個優(yōu)勢。比如可以用米
就別用英尺。

還有數(shù)據(jù)形式和規(guī)范，或者說數(shù)據(jù)類型，有些是離散化的數(shù)據(jù)（參加活動的人數(shù)），有些是連續(xù)型的數(shù)據(jù)(比如身高，體重)，有些是有限集的，而這些集合基本能被有序排列。統(tǒng)一規(guī)范和形式，這對后面算法的設計至關重要。

在開發(fā)過程中，往往和實際情況下的數(shù)據(jù)分布不同。例如也許你想把用戶按照體重劃分為“胖”“適中”“瘦”三檔，但如果系統(tǒng)開發(fā)時使用的數(shù)據(jù)集里最低用戶的體重是80kg，那最后的分析結(jié)果里可能會有一個160斤的瘦子。

3、數(shù)據(jù)缺失了怎么辦

在我們的產(chǎn)品數(shù)據(jù)庫中數(shù)據(jù)缺失是很正常的，沒有一個產(chǎn)品數(shù)據(jù)百分之百健全的，實際過程中，我們有兩種策略，一種是直接全部丟棄參閱嚴重的數(shù)據(jù)列；另外一種就是想辦法補全這些缺失的數(shù)據(jù)，去數(shù)據(jù)列中數(shù)據(jù)的均值填充進行，實際上我們應該清楚無論哪種一種方式，都會對接下來分析的準確性造成影響。

4、為什么要盡可能的提高數(shù)據(jù)的規(guī)模

數(shù)據(jù)規(guī)模影響可以分三個方面來分析：

數(shù)據(jù)規(guī)模會影響算法的計算時間，算法的效率決定了用戶在使用過程中的體驗狀況。
數(shù)據(jù)規(guī)模對于算法的精準度有至關重要的影響。
數(shù)據(jù)達到一定的規(guī)模后可以掩蓋數(shù)據(jù)缺失造成的影響。

5、不要讓數(shù)據(jù)的預測去迎合你

產(chǎn)品或者運營人員經(jīng)常會基于自己的主觀認識，嘗試去預測當前的用戶情況，交易情況等。但是在大量的數(shù)據(jù)集合中，人類基本已經(jīng)喪失了尋找規(guī)律，需找特征的能力，所以不要嘗試和數(shù)據(jù)的預測作對。因為大數(shù)據(jù)總輸入信息間形成的組合關系會快速增加，這讓人很難像對中等數(shù)據(jù)集合那樣能夠?qū)ζ渲幸徊糠謹?shù)據(jù)進行抽樣觀察。

更麻煩的是，特征數(shù)量增加時人類對數(shù)據(jù)的直覺會迅速降低。例如在高維空間里，多元高斯分布并不是沿著均值分布，而是像一個扇貝形狀圍繞在均值附近，這和人們的主觀感受完全不同。在低維空間中建立一個分類器并不難，但是當維度增加時，人類就很難直觀的理解了。（舉例來自直接搬磚，向不知名人士表示感謝）

6、回答一下程序員哥哥們的提問（產(chǎn)品止步）

在JSON數(shù)據(jù)獲取中，ajax后臺獲取數(shù)據(jù)之后，在前臺返回的時候，有時候顯示的是雜亂無章的信息，并非你想要的，其一的原因是一定要 response.getWriter.print() 后response.getWriter.flush (),然后 response.getwriter.close()。

如有不同意見，歡迎拍磚。將繼續(xù)更新，請大家關注。

本文由 @沒空兒原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載

題圖來自 Unsplash ，基于 CC0 協(xié)議

更多精彩內(nèi)容，請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App