爬取了拉勾網(wǎng)北京產(chǎn)品經(jīng)理求職的數(shù)據(jù),我發(fā)現(xiàn)……
前段時間學習完了python,再加上最近需要找工作,決定爬取招聘網(wǎng)站(本文以拉勾網(wǎng)為抓取對象),通過建立相關(guān)數(shù)據(jù)模型,分析產(chǎn)品經(jīng)理相關(guān)要求和職責,指導簡歷制作及今后產(chǎn)品努力的方向。
一、確定目標
本文以拉勾網(wǎng)作為抓取對象,主要在于拉勾網(wǎng)是互聯(lián)網(wǎng)求職者的一個重要渠道,分析拉勾網(wǎng)具有一定參考意義。
二、獲取數(shù)據(jù)
確定好目標好,下一步就到了獲取數(shù)據(jù)源步驟。獲取數(shù)據(jù)源是數(shù)據(jù)分析的前提和基礎。獲取數(shù)據(jù)源主要有四種常見的方式:
1. 互聯(lián)網(wǎng)公開數(shù)據(jù)
互聯(lián)網(wǎng)公開數(shù)據(jù)主要通過搜索獲取,例如,想要獲取2016收集銷量排行數(shù)據(jù),可通過輸入相關(guān)關(guān)鍵詞獲取相應結(jié)果,圖1 2016年收集銷量排行榜,輸入“手機銷量排行榜2016”,得出有關(guān)銷售量結(jié)果。
圖1 2016年收集銷量排行榜
當然,直接通過搜索引擎獲取結(jié)果是一件比較幸運的事,不過,在獲取數(shù)據(jù)時,一般不會直接獲取到想要的數(shù)據(jù)。除了互聯(lián)網(wǎng)公開數(shù)據(jù)外,本地數(shù)據(jù)也是一個重要數(shù)據(jù)來源渠道。
2. 本地數(shù)據(jù)
本地數(shù)據(jù)主要指存儲在本地電腦、網(wǎng)盤等載體內(nèi)的數(shù)據(jù),以PDF、Word、Excel及CSV為主。例如,圖2 快消品行業(yè)分析報告,收集了快消品在營銷、趨勢等方面的數(shù)據(jù)。
圖2 快消品行業(yè)分析報告
3. API數(shù)據(jù)
API數(shù)據(jù)是一個重要的數(shù)據(jù)渠道,尤其隨著互聯(lián)網(wǎng)數(shù)據(jù)存儲量越來越大以及眾多網(wǎng)站開放了API接口,使得API接口數(shù)據(jù)成為重要形式。目前,有很多API數(shù)據(jù)應用市場,例如,百度API store ,聚合數(shù)據(jù)等,整合各種類型API,用戶可通過申請apikey,獲取相關(guān)數(shù)據(jù)。例如,想要獲取全國天氣實時數(shù)據(jù),可通過調(diào)用天氣API,獲取實時數(shù)據(jù)。如圖3,全國天氣數(shù)據(jù)接口,申請APIkey,導入相應庫,獲取數(shù)據(jù)。
圖3 全國天氣數(shù)據(jù)接口
4. 數(shù)據(jù)庫數(shù)據(jù)
數(shù)據(jù)庫是存儲數(shù)據(jù)的重要載體,目前,常用的數(shù)據(jù)庫有mysql、sqlserver及oracle等,讀取數(shù)據(jù)庫數(shù)據(jù)需要sql語句。
5. 爬蟲數(shù)據(jù)
數(shù)據(jù)爬取是當前獲取數(shù)據(jù)的一種重要方式,通過比如用爬蟲工具爬取點評網(wǎng)站的商家評分、評價內(nèi)容等,或是直接自己人肉收集(手工復制下來),亦或是找一個免費問卷網(wǎng)站做一份問卷然后散發(fā)給你身邊的人,都是可以的。這種方式受限制較少,但工作量/實現(xiàn)難度相對較大。不過,爬蟲數(shù)據(jù)需要具有一定的編程基礎,當前在爬取數(shù)據(jù)方面常用的是python。
本文爬取拉勾網(wǎng)也是采取python作為爬蟲語言。本文在獲取數(shù)據(jù)時,采取數(shù)據(jù)抓取的方式,著重闡述如何爬取拉勾網(wǎng)相關(guān)數(shù)據(jù)的。
爬取拉勾網(wǎng):
數(shù)據(jù)爬取,簡單的說,就是利用python寫一個定向爬蟲腳本,抓取北京產(chǎn)品經(jīng)理在工作年限、學歷要求及行業(yè)領域等方面的數(shù)據(jù),通過數(shù)據(jù)數(shù)據(jù)挖掘模型,分析各個維度下產(chǎn)品經(jīng)理相關(guān)要求。如圖4產(chǎn)品經(jīng)理抓取界面:
圖4 產(chǎn)品經(jīng)理抓取界面
通過分析檢查元素-network-doc-分析http請求方式(get\post)-分析網(wǎng)頁div、css選擇類之后,選擇requests、BeautifulSoup、正在表達式等工具后,開始爬蟲(此處省去爬蟲具體分析及爬蟲過程),爬蟲結(jié)束后,將爬蟲結(jié)果存入本地Excel(由于數(shù)據(jù)量較少,沒有使用mysql)。如圖5 部分代碼界面:
圖5 爬蟲結(jié)果界面
獲取數(shù)據(jù)后,將數(shù)據(jù)存儲在EXcel中,此時數(shù)據(jù)較亂,會出現(xiàn)空值等情況,針對此情況,需要進行數(shù)據(jù)清洗的過程。
三、清洗數(shù)據(jù)
爬蟲獲得的數(shù)據(jù),90%以上的情況,你拿到的數(shù)據(jù)都需要先做清洗工作,排除異常值、空白值、無效值、重復值等等。這項工作經(jīng)常會占到整個數(shù)據(jù)分析過程將近一半的時間。如果在上一步中,你的數(shù)據(jù)是通過手工復制/下載獲取的,那么通常會比較干凈,不需要做太多清洗工作。但如果數(shù)據(jù)是通過爬蟲等方式得來,那么你需要進行清洗,提取核心內(nèi)容,去掉網(wǎng)頁代碼、標點符號等無用內(nèi)容。無論你采用哪一種方式獲取數(shù)據(jù),請記住,數(shù)據(jù)清洗永遠是你必須要做的一項工作。通過對數(shù)據(jù)清洗后,下圖6 數(shù)據(jù)清洗后的數(shù)據(jù):
圖6 清洗后數(shù)據(jù)
四、整理數(shù)據(jù)及分析
清洗過后,需要進行數(shù)據(jù)整理,即將數(shù)據(jù)整理為能夠進行下一步分析的格式,由于數(shù)據(jù)量較少,并沒有采用Spss,而是Excel。整理完相關(guān)數(shù)據(jù)后,確定分析的維度及指標,一般計算一些二級指標就可以,例如,通過計算手機銷售量同比、環(huán)比等增長率。如果你收集的是一些非數(shù)字的數(shù)據(jù),比如對商家的點評,那么你進行下一步統(tǒng)計之前,需要通過“關(guān)鍵詞-標簽”方式,將句子轉(zhuǎn)化為標簽,再對標簽進行統(tǒng)計。當然,非數(shù)字的數(shù)據(jù),還通常用分詞統(tǒng)計,例如,崗位要求可以采用sae分詞統(tǒng)計及關(guān)鍵詞抽離等方式,抽離出關(guān)鍵標簽及統(tǒng)計。
五、結(jié) 論
做完以上工作后,下一步對數(shù)據(jù)分析并制作數(shù)據(jù)報表。主要涉及到工資分配表,圖7 工資分配表、圖8工作經(jīng)驗表、圖9公司簡介表、圖10崗位要求表。
圖7 工資分配表
圖 8-1工作經(jīng)驗表
圖 8-2工作經(jīng)驗表(年限)
圖8-3工作經(jīng)驗表(學歷)
圖9公司簡介表
圖10崗位要求表
通過圖7 工資分配表可知,北京地區(qū)產(chǎn)品經(jīng)理主要集中在10K-20K之間(此次沒有對各個區(qū)間合并),工作經(jīng)驗主要要求在1-3年及3-5年兩個區(qū)間,學歷以最低本科學歷為主,公司方面,以不需要融資、A輪及上市公司為主,通過崗位要求關(guān)鍵詞提煉,工具技能(axure、visio等)為基本要求,除了基本的需求分析、產(chǎn)品流程外,數(shù)據(jù)分析技術(shù)能力、市場能力也是一些比較看重的。
注:時間較倉促,分析的維度及采集數(shù)據(jù)較少
作者:勵秣,中臺PM
本文由 @勵秣 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
如果本文是一個產(chǎn)品,希望樓主多點誠意
正則表達式,有個錯別字
樓主的數(shù)據(jù)分析介紹的是不是太簡單了,只是從每個選擇條件的維度來得出結(jié)論,有點太表面了。是不是可以考慮從多維度綜合去分析數(shù)據(jù)所帶給我們的結(jié)論,如超市購物籃分析,挖掘數(shù)據(jù)背后深層的信息,并介紹其方法
為了參加一個產(chǎn)品經(jīng)理培訓完成的任務,上面說了 分析角度較少,不過,下一步我會講述一下如何做多維度分析及數(shù)據(jù)挖掘方面的知識
人工智能寫文章指日可待 ??
老哥,你這高端黑啊…… ?
對,人工智能寫文章 指日可待,
233333,已經(jīng)有靠這樣的了
學習了。