新媒體人必會的傻瓜式爬蟲工具:上手 Web Scraper 的 5 個步驟

22 評論 88879 瀏覽 179 收藏 9 分鐘

做新媒體運營,很多時候會需要用到數(shù)據(jù)來幫助工作,比如你新進到一家公司做新媒體內容編輯,那你需要盤點公司已有的內容資產,避免重復生產內容。這時候就需要把網(wǎng)頁上的數(shù)據(jù)給扒下來,放在一起,才會一目了然。

從網(wǎng)頁上扒數(shù)據(jù),最好用的方法當然是爬蟲工具啦。很多人都以為爬蟲很難學吧?我一開始也這么認為的,直到我遇到了 Web Scraper 這個工具,才知道原來爬網(wǎng)頁數(shù)據(jù)也可以這么簡單。

下面,我就現(xiàn)身說法,講解一個小白是怎么快速上手 Web Scraper 的。

步驟一:下載 Web Scraper

Web Scraper 是 Chrome 瀏覽器上的一個插件,你需要翻墻進入 Chrome 應用商店,下載 Web Scraper 插件。

步驟二:打開 Web Scraper

先打開一個你想爬數(shù)據(jù)的網(wǎng)頁,比如我想爬今日頭條上「吳曉波頻道」這個賬戶的文章標題、時間、評論數(shù),那我就先打開它,再一一進行操作。

然后用快捷鍵 Ctrl + Shift + I / F12 打開 Web Scraper。

步驟三:新建一個 Sitemap

點擊 Create New Sitemap,里面有兩個選項,import sitemap是指導入一個現(xiàn)成的 sitemap,咱小白一般沒有現(xiàn)成的,所以一般不選這個,選create sitemap 就好。然后進行這兩個操作:

  • Sitemap Name:代表你這個 Sitemap 是適用于哪一個網(wǎng)頁的,所以你可以根據(jù)網(wǎng)頁來自命名,不過需要使用英文字母,比如我抓的是今日頭條的數(shù)據(jù),那我就用 toutiao 來命名;
  • Sitemap URL:把網(wǎng)頁鏈接復制到 Star URL 這一欄,比如圖片里我把「吳曉波頻道」的主頁鏈接復制到了這一欄。

步驟四:設置這個 Sitemap

整個 Web Scraper 的抓取邏輯是這樣:設置一級 Selector,選定抓取范圍;在一級 Selector 下設置二級 Selector,選定抓取字段,然后抓取。

咱們換個接地氣的例子,假如你要獲取福建人的姓名、性別和年齡這三個要素,那么你得這么做:首先要定位到福建省,然后再在福建省里面去定位姓名、性別、年齡。

在這里,一級 Selector 表示你要在中國這個大的國家圈出福建省,二級Selector 表示你要在福建省的人口中圈定姓名、性別、年齡這三個要素。

對于文章而言,一級 Selector 就是你要把這一塊文章的要素圈出來,這個要素可能包含了 標題、作者、發(fā)布時間、評論數(shù)等等,然后我們再在二級 Selector 中挑出我們要的要素,比如標題、作者、閱讀數(shù)。

下面我們來拆解這個設置一級、二級 Selector 的工作流:

1. 點擊 Add new selector 創(chuàng)建一級 Selector,按照以下步驟操作:

  • 輸入id:id 代表你抓取的整個范圍,比如這里是文章,我們可以命名為 wuxiaobo-articles;
  • 選擇Type:type 代表你抓取的這部分的類型,比如元素/文本/鏈接,因為這個是整個文章要素范圍選取,我們需要用 Element 來先整體選取(如果這個網(wǎng)頁需要滑動加載更多,那就選 Element Scroll Down);
  • 勾選Multiple:勾選 Multiple 前面的小框,因為你要選的是多個元素而不是單個元素,當我們勾選的時候,爬蟲插件會幫助我們識別多篇同類的文章;
  • 保留設置:其余未提及部分保留默認設置。

2. 點擊 select 選擇范圍,按照以下步驟操作:

  • 選擇范圍:用鼠標選擇你要爬取數(shù)據(jù)的范圍,綠色是待選區(qū)域,用鼠標點擊后變?yōu)榧t色,才是選中了這塊區(qū)域;
  • 多選:不要只選一個,下面的也要選,否則爬出來的數(shù)據(jù)也只有一行;
  • 完成選擇: 記得點 Done Selecting;
  • 保存:點擊 Save Selector。

3. 設置好了這個一級的 Selector 之后,點進去設置二級的 Selector,按照以下步驟操作:

  • 新建Selector:點擊 Add new selector ;
  • 輸入id:id 代表你抓取的是哪個字段,所以可以取該字段的英文,比如我要選「作者」,我就寫「writer」;
  • 選擇Type:選 Text,因為你要抓取的是文本;
  • 勿勾選Multiple:不要勾選 Multiple 前面的小框,因為我們在這里要抓取的是單個元素;
  • 保留設置:其余未提及部分保留默認設置。

4. 點擊 select,再點擊你要爬取的字段,按照以下步驟操作:

  • 選擇字段:這里爬取的字段是單個的,用鼠標點擊該字段即可選定,比如要爬標題,那就用鼠標點擊某篇文章的標題,當字段所在區(qū)域變紅即為選中;
  • 完成選擇:記得點 Done Selecting;
  • 保存:點擊 Save Selector。

5. 重復以上操作,直到選完你想爬的字段。

步驟五:爬取數(shù)據(jù)

之所以說 Web Scraper 是傻瓜式爬蟲工具,就是因為只需要設置完所有的 Selector,就可以開始爬數(shù)據(jù)了,怎么樣,是不是簡單?

那么怎么開始爬數(shù)據(jù)呢?只需要一個簡單的操作:點擊 Scrape,然后點Start Scraping,會彈出一個小窗,然后辛勤的小爬蟲就開始工作了。你會得到一個列表,上面有你想要的所有數(shù)據(jù)。

如果你希望把這些數(shù)據(jù)做一個排序,比如按照閱讀量、贊數(shù)、作者等指標排序,讓數(shù)據(jù)更一目了然,那么你可以點擊 Export Data as CSV,把它導入 Excel 表里

導入 Excel 表格之后,你就可以對數(shù)據(jù)進行篩選了。

以上就是快速上手 Web Scraper 的所有操作過程,連我這種懶癌 + 手殘都能在 5 分鐘之內搞定,相信你也可以指哪兒爬哪兒,完全 OK 的啦。

 

作者:半撇私塾,公眾號:BPteach2016。

本文由 @半撇私塾 原創(chuàng)發(fā)布于人人都是產品經理。未經許可,禁止轉載

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 我這里寫了十幾篇關于 web scraper 的教程,從基礎的抓取元素到高級的翻頁技巧都覆蓋了,非常適合產品運營的同學學習。感興趣的同學可以看一下:https://www.cnblogs.com/web-scraper/

    來自上海 回復
  2. 您好,如果數(shù)據(jù)很多,需要翻頁,這個應該怎么實現(xiàn)呢?

    來自貴州 回復
  3. 想請問下,按照上面操作,為什么有的數(shù)據(jù)是null呢?

    來自廣東 回復
  4. 我有一個視頻課程就是講web scraper的使用方法,有興趣的可以看微信公眾號:全棧全網(wǎng)營銷,也有翻譯的文檔資料。

    來自福建 回復
  5. 你好為什么我按著你的操作來 只有標題 其他的啥也沒有呢?

    來自江蘇 回復
  6. 你好,我想請問一個問題:如果想要加載更多數(shù)據(jù),需要選擇scroll down類型,可是我想要加載的是向上翻的數(shù)據(jù),這樣的話該如何實現(xiàn)呢?

    來自新加坡 回復
    1. 您是說翻頁還是向上滾動?一般的加載更多的模式都是翻頁或者向下滾動的呀?

      來自廣東 回復
    2. 是的,一般情況都是向下滾動的,可是這次要抓的數(shù)據(jù)在最上面,需要向上滾動才能加載到。請問這樣功能可以實現(xiàn)嗎?

      來自新加坡 回復
  7. 非常6 gif教學,不錯不錯。你錄制gif用啥工具?

    來自北京 回復
    1. ScreenToGif

      來自廣東 回復
    2. 其實有一個細節(jié),就是如果遇到類似京東的產品列表頁,想擼前10頁的內容,如何設置?下方翻頁是1 2……下一頁 123頁那種……我搜了油管,發(fā)現(xiàn)也沒有細節(jié)教學。

      來自北京 回復
    3. 你在建一級selector的時候,不是要復制網(wǎng)頁url嗎,如果是多個頁面的鏈接,后面會有page=1這種字樣,你改成page=[1-10]應該就可以了

      來自廣東 回復
    4. 多謝,測試了下,確實可以,不過貌似這個爬的順序不是順序排列的。比如去京東,排序銷量最好的10頁手機并不能按照順序爬,這個有點兒尷尬。

      來自北京 回復
  8. 怎么翻墻勒

    回復
    1. VPN..還有一個辦法,把筆記本帶到國外上網(wǎng) ??

      來自廣東 回復
    2. 可以用藍燈哦~

      來自廣東 回復
  9. 感覺挺有用,想問下作者我按步驟操作完之后最后出現(xiàn)的只有null,而沒有出現(xiàn)那些文章的信息,是什么原因呢?

    來自廣東 回復
    1. 你的參數(shù)可能設置錯了,看看你新建一二級selector的時候是不是出錯了?

      來自廣東 回復
    2. 有可能是id那,一級selector的id是 wuxiaobo還是 wuxiaobo-articles呀?因為圖片中你是輸入 wuxiaobo,但是文字說明中你又寫 wuxiaobo-articles?

      來自廣東 回復
    3. 這個id是自己設的,不會對結果有太大影響的~

      來自廣東 回復
    4. 嗯嗯好的

      來自廣東 回復
    5. 可以私聊幫忙解決下嗎?謝謝,這里回復不能發(fā)截圖的

      來自廣東 回復