爬取了拉勾網(wǎng)北京產(chǎn)品經(jīng)理求職的數(shù)據(jù),我發(fā)現(xiàn)……

9 評論 29351 瀏覽 34 收藏 10 分鐘

前段時間學習完了python,再加上最近需要找工作,決定爬取招聘網(wǎng)站(本文以拉勾網(wǎng)為抓取對象),通過建立相關(guān)數(shù)據(jù)模型,分析產(chǎn)品經(jīng)理相關(guān)要求和職責,指導簡歷制作及今后產(chǎn)品努力的方向。

一、確定目標

本文以拉勾網(wǎng)作為抓取對象,主要在于拉勾網(wǎng)是互聯(lián)網(wǎng)求職者的一個重要渠道,分析拉勾網(wǎng)具有一定參考意義。

二、獲取數(shù)據(jù)

確定好目標好,下一步就到了獲取數(shù)據(jù)源步驟。獲取數(shù)據(jù)源是數(shù)據(jù)分析的前提和基礎。獲取數(shù)據(jù)源主要有四種常見的方式:

1. 互聯(lián)網(wǎng)公開數(shù)據(jù)

互聯(lián)網(wǎng)公開數(shù)據(jù)主要通過搜索獲取,例如,想要獲取2016收集銷量排行數(shù)據(jù),可通過輸入相關(guān)關(guān)鍵詞獲取相應結(jié)果,圖1 2016年收集銷量排行榜,輸入“手機銷量排行榜2016”,得出有關(guān)銷售量結(jié)果。

圖1 2016年收集銷量排行榜

當然,直接通過搜索引擎獲取結(jié)果是一件比較幸運的事,不過,在獲取數(shù)據(jù)時,一般不會直接獲取到想要的數(shù)據(jù)。除了互聯(lián)網(wǎng)公開數(shù)據(jù)外,本地數(shù)據(jù)也是一個重要數(shù)據(jù)來源渠道。

2. 本地數(shù)據(jù)

本地數(shù)據(jù)主要指存儲在本地電腦、網(wǎng)盤等載體內(nèi)的數(shù)據(jù),以PDF、Word、Excel及CSV為主。例如,圖2 快消品行業(yè)分析報告,收集了快消品在營銷、趨勢等方面的數(shù)據(jù)。

圖2 快消品行業(yè)分析報告

3. API數(shù)據(jù)

API數(shù)據(jù)是一個重要的數(shù)據(jù)渠道,尤其隨著互聯(lián)網(wǎng)數(shù)據(jù)存儲量越來越大以及眾多網(wǎng)站開放了API接口,使得API接口數(shù)據(jù)成為重要形式。目前,有很多API數(shù)據(jù)應用市場,例如,百度API store ,聚合數(shù)據(jù)等,整合各種類型API,用戶可通過申請apikey,獲取相關(guān)數(shù)據(jù)。例如,想要獲取全國天氣實時數(shù)據(jù),可通過調(diào)用天氣API,獲取實時數(shù)據(jù)。如圖3,全國天氣數(shù)據(jù)接口,申請APIkey,導入相應庫,獲取數(shù)據(jù)。

圖3 全國天氣數(shù)據(jù)接口

4. 數(shù)據(jù)庫數(shù)據(jù)

數(shù)據(jù)庫是存儲數(shù)據(jù)的重要載體,目前,常用的數(shù)據(jù)庫有mysql、sqlserver及oracle等,讀取數(shù)據(jù)庫數(shù)據(jù)需要sql語句。

5. 爬蟲數(shù)據(jù)

數(shù)據(jù)爬取是當前獲取數(shù)據(jù)的一種重要方式,通過比如用爬蟲工具爬取點評網(wǎng)站的商家評分、評價內(nèi)容等,或是直接自己人肉收集(手工復制下來),亦或是找一個免費問卷網(wǎng)站做一份問卷然后散發(fā)給你身邊的人,都是可以的。這種方式受限制較少,但工作量/實現(xiàn)難度相對較大。不過,爬蟲數(shù)據(jù)需要具有一定的編程基礎,當前在爬取數(shù)據(jù)方面常用的是python。

本文爬取拉勾網(wǎng)也是采取python作為爬蟲語言。本文在獲取數(shù)據(jù)時,采取數(shù)據(jù)抓取的方式,著重闡述如何爬取拉勾網(wǎng)相關(guān)數(shù)據(jù)的。

爬取拉勾網(wǎng):

數(shù)據(jù)爬取,簡單的說,就是利用python寫一個定向爬蟲腳本,抓取北京產(chǎn)品經(jīng)理在工作年限、學歷要求及行業(yè)領域等方面的數(shù)據(jù),通過數(shù)據(jù)數(shù)據(jù)挖掘模型,分析各個維度下產(chǎn)品經(jīng)理相關(guān)要求。如圖4產(chǎn)品經(jīng)理抓取界面:

圖4 產(chǎn)品經(jīng)理抓取界面

通過分析檢查元素-network-doc-分析http請求方式(get\post)-分析網(wǎng)頁div、css選擇類之后,選擇requests、BeautifulSoup、正在表達式等工具后,開始爬蟲(此處省去爬蟲具體分析及爬蟲過程),爬蟲結(jié)束后,將爬蟲結(jié)果存入本地Excel(由于數(shù)據(jù)量較少,沒有使用mysql)。如圖5 部分代碼界面:

圖5 爬蟲結(jié)果界面

獲取數(shù)據(jù)后,將數(shù)據(jù)存儲在EXcel中,此時數(shù)據(jù)較亂,會出現(xiàn)空值等情況,針對此情況,需要進行數(shù)據(jù)清洗的過程。

三、清洗數(shù)據(jù)

爬蟲獲得的數(shù)據(jù),90%以上的情況,你拿到的數(shù)據(jù)都需要先做清洗工作,排除異常值、空白值、無效值、重復值等等。這項工作經(jīng)常會占到整個數(shù)據(jù)分析過程將近一半的時間。如果在上一步中,你的數(shù)據(jù)是通過手工復制/下載獲取的,那么通常會比較干凈,不需要做太多清洗工作。但如果數(shù)據(jù)是通過爬蟲等方式得來,那么你需要進行清洗,提取核心內(nèi)容,去掉網(wǎng)頁代碼、標點符號等無用內(nèi)容。無論你采用哪一種方式獲取數(shù)據(jù),請記住,數(shù)據(jù)清洗永遠是你必須要做的一項工作。通過對數(shù)據(jù)清洗后,下圖6 數(shù)據(jù)清洗后的數(shù)據(jù):

圖6 清洗后數(shù)據(jù)

四、整理數(shù)據(jù)及分析

清洗過后,需要進行數(shù)據(jù)整理,即將數(shù)據(jù)整理為能夠進行下一步分析的格式,由于數(shù)據(jù)量較少,并沒有采用Spss,而是Excel。整理完相關(guān)數(shù)據(jù)后,確定分析的維度及指標,一般計算一些二級指標就可以,例如,通過計算手機銷售量同比、環(huán)比等增長率。如果你收集的是一些非數(shù)字的數(shù)據(jù),比如對商家的點評,那么你進行下一步統(tǒng)計之前,需要通過“關(guān)鍵詞-標簽”方式,將句子轉(zhuǎn)化為標簽,再對標簽進行統(tǒng)計。當然,非數(shù)字的數(shù)據(jù),還通常用分詞統(tǒng)計,例如,崗位要求可以采用sae分詞統(tǒng)計及關(guān)鍵詞抽離等方式,抽離出關(guān)鍵標簽及統(tǒng)計。

五、結(jié) 論

做完以上工作后,下一步對數(shù)據(jù)分析并制作數(shù)據(jù)報表。主要涉及到工資分配表,圖7 工資分配表、圖8工作經(jīng)驗表、圖9公司簡介表、圖10崗位要求表。

圖7 工資分配表

圖 8-1工作經(jīng)驗表

圖 8-2工作經(jīng)驗表(年限)

圖8-3工作經(jīng)驗表(學歷)

圖9公司簡介表

圖10崗位要求表

通過圖7 工資分配表可知,北京地區(qū)產(chǎn)品經(jīng)理主要集中在10K-20K之間(此次沒有對各個區(qū)間合并),工作經(jīng)驗主要要求在1-3年及3-5年兩個區(qū)間,學歷以最低本科學歷為主,公司方面,以不需要融資、A輪及上市公司為主,通過崗位要求關(guān)鍵詞提煉,工具技能(axure、visio等)為基本要求,除了基本的需求分析、產(chǎn)品流程外,數(shù)據(jù)分析技術(shù)能力、市場能力也是一些比較看重的。

注:時間較倉促,分析的維度及采集數(shù)據(jù)較少

 

作者:勵秣,中臺PM

本文由 @勵秣 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 如果本文是一個產(chǎn)品,希望樓主多點誠意

    來自廣東 回復
  2. 正則表達式,有個錯別字

    回復
  3. 樓主的數(shù)據(jù)分析介紹的是不是太簡單了,只是從每個選擇條件的維度來得出結(jié)論,有點太表面了。是不是可以考慮從多維度綜合去分析數(shù)據(jù)所帶給我們的結(jié)論,如超市購物籃分析,挖掘數(shù)據(jù)背后深層的信息,并介紹其方法

    來自江蘇 回復
    1. 為了參加一個產(chǎn)品經(jīng)理培訓完成的任務,上面說了 分析角度較少,不過,下一步我會講述一下如何做多維度分析及數(shù)據(jù)挖掘方面的知識

      來自北京 回復
  4. 人工智能寫文章指日可待 ??

    來自北京 回復
    1. 老哥,你這高端黑啊…… ?

      來自北京 回復
    2. 對,人工智能寫文章 指日可待,

      來自北京 回復
    3. 233333,已經(jīng)有靠這樣的了

      來自湖南 回復
  5. 學習了。

    來自上海 回復