天天欲色在线,欧洲AV无码放荡人妇网站

搜索

APP

起點課堂會員權益

職業(yè)體系課特權

線下行業(yè)大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

新媒體人必會的傻瓜式爬蟲工具：上手 Web Scraper 的 5 個步驟

半撇私塾

2017-08-24

22 評論 88879 瀏覽 179 收藏

9 分鐘

做新媒體運營，很多時候會需要用到數(shù)據(jù)來幫助工作，比如你新進到一家公司做新媒體內容編輯，那你需要盤點公司已有的內容資產，避免重復生產內容。這時候就需要把網(wǎng)頁上的數(shù)據(jù)給扒下來，放在一起，才會一目了然。

從網(wǎng)頁上扒數(shù)據(jù)，最好用的方法當然是爬蟲工具啦。很多人都以為爬蟲很難學吧？我一開始也這么認為的，直到我遇到了 Web Scraper 這個工具，才知道原來爬網(wǎng)頁數(shù)據(jù)也可以這么簡單。

下面，我就現(xiàn)身說法，講解一個小白是怎么快速上手 Web Scraper 的。

步驟一：下載 Web Scraper

Web Scraper 是 Chrome 瀏覽器上的一個插件，你需要翻墻進入 Chrome 應用商店，下載 Web Scraper 插件。

步驟二：打開 Web Scraper

先打開一個你想爬數(shù)據(jù)的網(wǎng)頁，比如我想爬今日頭條上「吳曉波頻道」這個賬戶的文章標題、時間、評論數(shù)，那我就先打開它，再一一進行操作。

然后用快捷鍵 Ctrl + Shift + I / F12 打開 Web Scraper。

步驟三：新建一個 Sitemap

點擊 Create New Sitemap，里面有兩個選項，import sitemap是指導入一個現(xiàn)成的 sitemap，咱小白一般沒有現(xiàn)成的，所以一般不選這個，選create sitemap 就好。然后進行這兩個操作：

Sitemap Name：代表你這個 Sitemap 是適用于哪一個網(wǎng)頁的，所以你可以根據(jù)網(wǎng)頁來自命名，不過需要使用英文字母，比如我抓的是今日頭條的數(shù)據(jù)，那我就用 toutiao 來命名；
Sitemap URL：把網(wǎng)頁鏈接復制到 Star URL 這一欄，比如圖片里我把「吳曉波頻道」的主頁鏈接復制到了這一欄。

步驟四：設置這個 Sitemap

整個 Web Scraper 的抓取邏輯是這樣：設置一級 Selector，選定抓取范圍；在一級 Selector 下設置二級 Selector，選定抓取字段，然后抓取。

咱們換個接地氣的例子，假如你要獲取福建人的姓名、性別和年齡這三個要素，那么你得這么做：首先要定位到福建省，然后再在福建省里面去定位姓名、性別、年齡。

在這里，一級 Selector 表示你要在中國這個大的國家圈出福建省，二級Selector 表示你要在福建省的人口中圈定姓名、性別、年齡這三個要素。

對于文章而言，一級 Selector 就是你要把這一塊文章的要素圈出來，這個要素可能包含了標題、作者、發(fā)布時間、評論數(shù)等等，然后我們再在二級 Selector 中挑出我們要的要素，比如標題、作者、閱讀數(shù)。

下面我們來拆解這個設置一級、二級 Selector 的工作流：

1. 點擊 Add new selector 創(chuàng)建一級 Selector，按照以下步驟操作：

輸入id：id 代表你抓取的整個范圍，比如這里是文章，我們可以命名為 wuxiaobo-articles；
選擇Type：type 代表你抓取的這部分的類型，比如元素／文本／鏈接，因為這個是整個文章要素范圍選取，我們需要用 Element 來先整體選取（如果這個網(wǎng)頁需要滑動加載更多，那就選 Element Scroll Down）；
勾選Multiple：勾選 Multiple 前面的小框，因為你要選的是多個元素而不是單個元素，當我們勾選的時候，爬蟲插件會幫助我們識別多篇同類的文章；
保留設置：其余未提及部分保留默認設置。

2. 點擊 select 選擇范圍，按照以下步驟操作：

選擇范圍：用鼠標選擇你要爬取數(shù)據(jù)的范圍，綠色是待選區(qū)域，用鼠標點擊后變?yōu)榧t色，才是選中了這塊區(qū)域；
多選：不要只選一個，下面的也要選，否則爬出來的數(shù)據(jù)也只有一行；
完成選擇：記得點 Done Selecting；
保存：點擊 Save Selector。

3. 設置好了這個一級的 Selector 之后，點進去設置二級的 Selector，按照以下步驟操作：

新建Selector：點擊 Add new selector ；
輸入id：id 代表你抓取的是哪個字段，所以可以取該字段的英文，比如我要選「作者」，我就寫「writer」；
選擇Type：選 Text，因為你要抓取的是文本；
勿勾選Multiple：不要勾選 Multiple 前面的小框，因為我們在這里要抓取的是單個元素；
保留設置：其余未提及部分保留默認設置。

4. 點擊 select，再點擊你要爬取的字段，按照以下步驟操作：

選擇字段：這里爬取的字段是單個的，用鼠標點擊該字段即可選定，比如要爬標題，那就用鼠標點擊某篇文章的標題，當字段所在區(qū)域變紅即為選中；
完成選擇：記得點 Done Selecting；
保存：點擊 Save Selector。

5. 重復以上操作，直到選完你想爬的字段。

步驟五：爬取數(shù)據(jù)

之所以說 Web Scraper 是傻瓜式爬蟲工具，就是因為只需要設置完所有的 Selector，就可以開始爬數(shù)據(jù)了，怎么樣，是不是簡單？

那么怎么開始爬數(shù)據(jù)呢？只需要一個簡單的操作：點擊 Scrape，然后點Start Scraping，會彈出一個小窗，然后辛勤的小爬蟲就開始工作了。你會得到一個列表，上面有你想要的所有數(shù)據(jù)。

如果你希望把這些數(shù)據(jù)做一個排序，比如按照閱讀量、贊數(shù)、作者等指標排序，讓數(shù)據(jù)更一目了然，那么你可以點擊 Export Data as CSV，把它導入 Excel 表里。

導入 Excel 表格之后，你就可以對數(shù)據(jù)進行篩選了。

以上就是快速上手 Web Scraper 的所有操作過程，連我這種懶癌 + 手殘都能在 5 分鐘之內搞定，相信你也可以指哪兒爬哪兒，完全 OK 的啦。

作者：半撇私塾，公眾號：BPteach2016。

本文由 @半撇私塾原創(chuàng)發(fā)布于人人都是產品經理。未經許可，禁止轉載

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

怎樣玩轉新媒體運營？文章被收錄于該專欄

共 19 篇文章35362 人已學習

半撇私塾

半撇私塾（BPteach）是一所項目制的在線新媒體大學。

6篇作品 250696總閱讀量

字節(jié)退守大本營

05-062966 瀏覽

抖音盯上小紅書？防御即是增長

06-052783 瀏覽

產業(yè)化思維助力招聘直播數(shù)據(jù)翻倍（下篇）

09-221973 瀏覽

天涯“無法訪問”，前總編開啟瘋狂帶貨

05-252518 瀏覽

開放生態(tài)+AIGC：2023社交新敘事

08-226397 瀏覽

評論

鹵代烴

我這里寫了十幾篇關于 web scraper 的教程，從基礎的抓取元素到高級的翻頁技巧都覆蓋了，非常適合產品運營的同學學習。感興趣的同學可以看一下：https://www.cnblogs.com/web-scraper/

最近來自上海回復
King飛瑤

您好，如果數(shù)據(jù)很多，需要翻頁，這個應該怎么實現(xiàn)呢？

最近來自貴州回復
司司

想請問下，按照上面操作，為什么有的數(shù)據(jù)是null呢？

最近來自廣東回復
白面書生

我有一個視頻課程就是講web scraper的使用方法，有興趣的可以看微信公眾號：全棧全網(wǎng)營銷，也有翻譯的文檔資料。

最近來自福建回復
大熊

你好為什么我按著你的操作來只有標題其他的啥也沒有呢？

最近來自江蘇回復
Rodgers

你好，我想請問一個問題：如果想要加載更多數(shù)據(jù)，需要選擇scroll down類型，可是我想要加載的是向上翻的數(shù)據(jù)，這樣的話該如何實現(xiàn)呢？

最近來自新加坡回復
1. 半撇私塾作者回復Rodgers
  
  您是說翻頁還是向上滾動？一般的加載更多的模式都是翻頁或者向下滾動的呀？
  
  最近來自廣東回復
2. Rodgers 回復半撇私塾
  
  是的，一般情況都是向下滾動的，可是這次要抓的數(shù)據(jù)在最上面，需要向上滾動才能加載到。請問這樣功能可以實現(xiàn)嗎？
  
  最近來自新加坡回復
果殼中的空間

非常6 gif教學，不錯不錯。你錄制gif用啥工具？

最近來自北京回復
1. 半撇私塾作者回復果殼中的空間
  
  ScreenToGif
  
  最近來自廣東回復
2. 果殼中的空間回復半撇私塾
  
  其實有一個細節(jié)，就是如果遇到類似京東的產品列表頁，想擼前10頁的內容，如何設置？下方翻頁是1 2……下一頁 123頁那種……我搜了油管，發(fā)現(xiàn)也沒有細節(jié)教學。
  
  最近來自北京回復
3. 半撇私塾作者回復果殼中的空間
  
  你在建一級selector的時候，不是要復制網(wǎng)頁url嗎，如果是多個頁面的鏈接，后面會有page=1這種字樣，你改成page=[1-10]應該就可以了
  
  最近來自廣東回復
4. 果殼中的空間回復半撇私塾
  
  多謝，測試了下，確實可以，不過貌似這個爬的順序不是順序排列的。比如去京東，排序銷量最好的10頁手機并不能按照順序爬，這個有點兒尷尬。
  
  最近來自北京回復
Iris

怎么翻墻勒

最近回復
1. 子木回復Iris
  
  VPN..還有一個辦法，把筆記本帶到國外上網(wǎng) ??
  
  最近來自廣東回復
2. 半撇私塾作者回復Iris
  
  可以用藍燈哦~
  
  最近來自廣東回復
德魯大叔

感覺挺有用，想問下作者我按步驟操作完之后最后出現(xiàn)的只有null，而沒有出現(xiàn)那些文章的信息，是什么原因呢？

最近來自廣東回復
1. 半撇私塾作者回復德魯大叔
  
  你的參數(shù)可能設置錯了，看看你新建一二級selector的時候是不是出錯了？
  
  最近來自廣東回復
2. 德魯大叔回復半撇私塾
  
  有可能是id那，一級selector的id是 wuxiaobo還是 wuxiaobo-articles呀？因為圖片中你是輸入 wuxiaobo，但是文字說明中你又寫 wuxiaobo-articles？
  
  最近來自廣東回復
3. 半撇私塾作者回復德魯大叔
  
  這個id是自己設的，不會對結果有太大影響的~
  
  最近來自廣東回復
4. 德魯大叔回復半撇私塾
  
  嗯嗯好的
  
  最近來自廣東回復
5. 德魯大叔回復半撇私塾
  
  可以私聊幫忙解決下嗎？謝謝，這里回復不能發(fā)截圖的
  
  最近來自廣東回復