中国女人内谢69XXXX免费视频,YELLOW资源在线视频高清观看,无码东京热一区二区三区

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

爬取了拉勾網(wǎng)北京產(chǎn)品經(jīng)理求職的數(shù)據(jù)，我發(fā)現(xiàn)……

勵秣

2017-02-27

9 評論 29351 瀏覽 34 收藏

10 分鐘

前段時間學習完了python，再加上最近需要找工作，決定爬取招聘網(wǎng)站（本文以拉勾網(wǎng)為抓取對象），通過建立相關(guān)數(shù)據(jù)模型，分析產(chǎn)品經(jīng)理相關(guān)要求和職責，指導簡歷制作及今后產(chǎn)品努力的方向。

一、確定目標

本文以拉勾網(wǎng)作為抓取對象，主要在于拉勾網(wǎng)是互聯(lián)網(wǎng)求職者的一個重要渠道，分析拉勾網(wǎng)具有一定參考意義。

二、獲取數(shù)據(jù)

確定好目標好，下一步就到了獲取數(shù)據(jù)源步驟。獲取數(shù)據(jù)源是數(shù)據(jù)分析的前提和基礎。獲取數(shù)據(jù)源主要有四種常見的方式：

1. 互聯(lián)網(wǎng)公開數(shù)據(jù)

互聯(lián)網(wǎng)公開數(shù)據(jù)主要通過搜索獲取，例如，想要獲取2016收集銷量排行數(shù)據(jù)，可通過輸入相關(guān)關(guān)鍵詞獲取相應結(jié)果，圖1 2016年收集銷量排行榜，輸入“手機銷量排行榜2016”，得出有關(guān)銷售量結(jié)果。

圖1 2016年收集銷量排行榜

當然，直接通過搜索引擎獲取結(jié)果是一件比較幸運的事，不過，在獲取數(shù)據(jù)時，一般不會直接獲取到想要的數(shù)據(jù)。除了互聯(lián)網(wǎng)公開數(shù)據(jù)外，本地數(shù)據(jù)也是一個重要數(shù)據(jù)來源渠道。

2. 本地數(shù)據(jù)

本地數(shù)據(jù)主要指存儲在本地電腦、網(wǎng)盤等載體內(nèi)的數(shù)據(jù)，以PDF、Word、Excel及CSV為主。例如，圖2 快消品行業(yè)分析報告，收集了快消品在營銷、趨勢等方面的數(shù)據(jù)。

圖2 快消品行業(yè)分析報告

3. API數(shù)據(jù)

API數(shù)據(jù)是一個重要的數(shù)據(jù)渠道，尤其隨著互聯(lián)網(wǎng)數(shù)據(jù)存儲量越來越大以及眾多網(wǎng)站開放了API接口，使得API接口數(shù)據(jù)成為重要形式。目前，有很多API數(shù)據(jù)應用市場，例如，百度API store ，聚合數(shù)據(jù)等，整合各種類型API，用戶可通過申請apikey，獲取相關(guān)數(shù)據(jù)。例如，想要獲取全國天氣實時數(shù)據(jù)，可通過調(diào)用天氣API，獲取實時數(shù)據(jù)。如圖3，全國天氣數(shù)據(jù)接口，申請APIkey，導入相應庫，獲取數(shù)據(jù)。

圖3 全國天氣數(shù)據(jù)接口

4. 數(shù)據(jù)庫數(shù)據(jù)

數(shù)據(jù)庫是存儲數(shù)據(jù)的重要載體，目前，常用的數(shù)據(jù)庫有mysql、sqlserver及oracle等，讀取數(shù)據(jù)庫數(shù)據(jù)需要sql語句。

5. 爬蟲數(shù)據(jù)

數(shù)據(jù)爬取是當前獲取數(shù)據(jù)的一種重要方式，通過比如用爬蟲工具爬取點評網(wǎng)站的商家評分、評價內(nèi)容等，或是直接自己人肉收集（手工復制下來），亦或是找一個免費問卷網(wǎng)站做一份問卷然后散發(fā)給你身邊的人，都是可以的。這種方式受限制較少，但工作量/實現(xiàn)難度相對較大。不過，爬蟲數(shù)據(jù)需要具有一定的編程基礎，當前在爬取數(shù)據(jù)方面常用的是python。

本文爬取拉勾網(wǎng)也是采取python作為爬蟲語言。本文在獲取數(shù)據(jù)時，采取數(shù)據(jù)抓取的方式，著重闡述如何爬取拉勾網(wǎng)相關(guān)數(shù)據(jù)的。

爬取拉勾網(wǎng)：

數(shù)據(jù)爬取，簡單的說，就是利用python寫一個定向爬蟲腳本，抓取北京產(chǎn)品經(jīng)理在工作年限、學歷要求及行業(yè)領域等方面的數(shù)據(jù)，通過數(shù)據(jù)數(shù)據(jù)挖掘模型，分析各個維度下產(chǎn)品經(jīng)理相關(guān)要求。如圖4產(chǎn)品經(jīng)理抓取界面：

圖4 產(chǎn)品經(jīng)理抓取界面

通過分析檢查元素－network-doc-分析http請求方式（get\post）-分析網(wǎng)頁div、css選擇類之后，選擇requests、BeautifulSoup、正在表達式等工具后，開始爬蟲（此處省去爬蟲具體分析及爬蟲過程），爬蟲結(jié)束后，將爬蟲結(jié)果存入本地Excel(由于數(shù)據(jù)量較少，沒有使用mysql)。如圖5 部分代碼界面：

圖5 爬蟲結(jié)果界面

獲取數(shù)據(jù)后，將數(shù)據(jù)存儲在EXcel中，此時數(shù)據(jù)較亂，會出現(xiàn)空值等情況，針對此情況，需要進行數(shù)據(jù)清洗的過程。

三、清洗數(shù)據(jù)

爬蟲獲得的數(shù)據(jù)，90%以上的情況，你拿到的數(shù)據(jù)都需要先做清洗工作，排除異常值、空白值、無效值、重復值等等。這項工作經(jīng)常會占到整個數(shù)據(jù)分析過程將近一半的時間。如果在上一步中，你的數(shù)據(jù)是通過手工復制/下載獲取的，那么通常會比較干凈，不需要做太多清洗工作。但如果數(shù)據(jù)是通過爬蟲等方式得來，那么你需要進行清洗，提取核心內(nèi)容，去掉網(wǎng)頁代碼、標點符號等無用內(nèi)容。無論你采用哪一種方式獲取數(shù)據(jù)，請記住，數(shù)據(jù)清洗永遠是你必須要做的一項工作。通過對數(shù)據(jù)清洗后，下圖6 數(shù)據(jù)清洗后的數(shù)據(jù)：

圖6 清洗后數(shù)據(jù)

四、整理數(shù)據(jù)及分析

清洗過后，需要進行數(shù)據(jù)整理，即將數(shù)據(jù)整理為能夠進行下一步分析的格式，由于數(shù)據(jù)量較少，并沒有采用Spss，而是Excel。整理完相關(guān)數(shù)據(jù)后，確定分析的維度及指標，一般計算一些二級指標就可以，例如，通過計算手機銷售量同比、環(huán)比等增長率。如果你收集的是一些非數(shù)字的數(shù)據(jù)，比如對商家的點評，那么你進行下一步統(tǒng)計之前，需要通過“關(guān)鍵詞-標簽”方式，將句子轉(zhuǎn)化為標簽，再對標簽進行統(tǒng)計。當然，非數(shù)字的數(shù)據(jù)，還通常用分詞統(tǒng)計，例如，崗位要求可以采用sae分詞統(tǒng)計及關(guān)鍵詞抽離等方式，抽離出關(guān)鍵標簽及統(tǒng)計。

五、結(jié) 論

做完以上工作后，下一步對數(shù)據(jù)分析并制作數(shù)據(jù)報表。主要涉及到工資分配表，圖7 工資分配表、圖8工作經(jīng)驗表、圖9公司簡介表、圖10崗位要求表。

圖7 工資分配表

圖 8－1工作經(jīng)驗表

圖 8－2工作經(jīng)驗表（年限）

圖8-3工作經(jīng)驗表（學歷）

圖9公司簡介表

圖10崗位要求表

通過圖7 工資分配表可知，北京地區(qū)產(chǎn)品經(jīng)理主要集中在10K-20K之間（此次沒有對各個區(qū)間合并），工作經(jīng)驗主要要求在1-3年及3-5年兩個區(qū)間，學歷以最低本科學歷為主，公司方面，以不需要融資、A輪及上市公司為主，通過崗位要求關(guān)鍵詞提煉，工具技能（axure、visio等）為基本要求，除了基本的需求分析、產(chǎn)品流程外，數(shù)據(jù)分析技術(shù)能力、市場能力也是一些比較看重的。

注：時間較倉促，分析的維度及采集數(shù)據(jù)較少

作者：勵秣，中臺PM

本文由 @勵秣原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

勵秣

交易中臺PM

3篇作品 67410總閱讀量

分享：輕醫(yī)美行業(yè)信息整理

07-216118 瀏覽

4個選產(chǎn)品方法，告訴你如何選好產(chǎn)品！

04-118902 瀏覽

價格戰(zhàn)2.0時代，電商巨頭搶奪產(chǎn)業(yè)帶

03-063415 瀏覽

東北人賣房的盡頭是直播間

03-132112 瀏覽

運營提需求了沒？

11-211947 瀏覽

評論

Michael.X

如果本文是一個產(chǎn)品，希望樓主多點誠意

最近來自廣東回復
暗飛聲

正則表達式，有個錯別字

最近回復
轉(zhuǎn)瞬之夏

樓主的數(shù)據(jù)分析介紹的是不是太簡單了，只是從每個選擇條件的維度來得出結(jié)論，有點太表面了。是不是可以考慮從多維度綜合去分析數(shù)據(jù)所帶給我們的結(jié)論，如超市購物籃分析，挖掘數(shù)據(jù)背后深層的信息，并介紹其方法

最近來自江蘇回復
1. 勵秣作者回復轉(zhuǎn)瞬之夏
  
  為了參加一個產(chǎn)品經(jīng)理培訓完成的任務，上面說了分析角度較少，不過，下一步我會講述一下如何做多維度分析及數(shù)據(jù)挖掘方面的知識
  
  最近來自北京回復
再行

人工智能寫文章指日可待 ??

最近來自北京回復
1. 張佳的AI實戰(zhàn)筆記回復再行
  
  老哥，你這高端黑啊…… ?
  
  最近來自北京回復
2. 勵秣作者回復張佳的AI實戰(zhàn)筆記
  
  對，人工智能寫文章指日可待，
  
  最近來自北京回復
3. aha~ 回復再行
  
  233333，已經(jīng)有靠這樣的了
  
  最近來自湖南回復
MUCHi

學習了。

最近來自上海回復