亚洲欧美字幕一区在线,国产旡码高清一区二区三区

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

分析了豌豆莢 7 萬款 App，全是萬萬沒想到

蘇克1900

2019-01-12

5 評論 8063 瀏覽 18 收藏

20 分鐘

使用 Scrapy 爬取豌豆莢全網(wǎng) 70000+ App，并進行探索性分析。若對數(shù)據(jù)抓取部分不感興趣，可以直接下拉到數(shù)據(jù)分析部分。

一、分析背景

之前我們使用了 Scrapy 爬取并分析了酷安網(wǎng) 6000+ App，為什么這篇文章又在講抓 App 呢？

因為我喜歡折騰 App，哈哈。當然，主要是因為下面這幾點：

第一、之前抓取的網(wǎng)頁很簡單

在抓取酷安網(wǎng)時，我們使用 for 循環(huán)，遍歷了幾百頁就完成了所有內(nèi)容的抓取，非常簡單，但現(xiàn)實往往不會這么 easy，有時我們要抓的內(nèi)容會比較龐大，比如抓取整個網(wǎng)站的數(shù)據(jù)，為了增強爬蟲技能，所以本文選擇了「豌豆莢」這個網(wǎng)站。

目標是： 爬取該網(wǎng)站所有分類下的 App 信息并下載 App 圖標，數(shù)量在 70,000 左右，比酷安升了一個數(shù)量級。

第二、再次練習(xí)使用強大的 Scrapy 框架

之前只是初步地使用了 Scrapy 進行抓取，還沒有充分領(lǐng)會到 Scrapy 有多么牛逼，所以本文嘗試深入使用 Scrapy，增加隨機 UserAgent、代理 IP 和圖片下載等設(shè)置。

第三、對比一下酷安和豌豆莢兩個網(wǎng)站

相信很多人都在使用豌豆莢下載 App，我則使用酷安較多，所以也想比較一下這兩個網(wǎng)站的 App 特點。

話不多說，下面開始抓取流程。

1. 分析目標

首先，我們先來了解一下要抓取的豌豆莢網(wǎng)頁是什么樣的，可以看到該網(wǎng)站上的 App 分成了很多類，包括：「應(yīng)用播放」、「系統(tǒng)工具」等，一共有 14 個大類別，每個大類下又細分了多個小類，例如，影音播放下包括：「視頻」、「直播」等。

點擊「視頻」進入第二級子類頁面，可以看到每款 App 的部分信息，包括：圖標、名稱、安裝數(shù)量、體積、評論等。

接著，我們可以再進入第三級頁面，也就是每款 App 的詳情頁，可以看到多了下載數(shù)、好評率、評論數(shù)這幾樣參數(shù)，抓取思路和第二級頁面大同小異，同時為了減小網(wǎng)站壓力，所以 App 詳情頁就不抓取了。

所以，這是一個分類多級頁面的抓取問題，依次抓取每一個大類下的全部子類數(shù)據(jù)。

學(xué)會了這種抓取思路，很多網(wǎng)站我們都可以去抓，比如很多人愛爬的「豆瓣電影」也是這樣的結(jié)構(gòu)。

2. 分析內(nèi)容

數(shù)據(jù)抓取完成后，本文主要是對分類型數(shù)據(jù)的進行簡單的探索性分析，包括這么幾個方面：

下載量最多 / 最少的 App 總排名；
下載量最多 / 最少的 App 分類 / 子分類排名；
App 下載量區(qū)間分布；
App 名稱重名的有多少；
和酷安 App 進行對比。

3. 分析工具

Python
Scrapy
MongoDB
Pyecharts
Matplotlib

二、數(shù)據(jù)抓取

1. 網(wǎng)站分析

我們剛才已經(jīng)初步對網(wǎng)站進行了分析，大致思路可以分為兩步，首先是提取所有子類的 URL 鏈接，然后分別抓取每個 URL 下的 App 信息就行了。

可以看到，子類的 URL 是由兩個數(shù)字構(gòu)成，前面的數(shù)字表示分類編號，后面的數(shù)字表示子分類編號，得到了這兩個編號，就可以抓取該分類下的所有 App 信息，那么怎么獲取這兩個數(shù)值代碼呢?

回到分類頁面，定位查看信息，可以看到分類信息都包裹在每個 li 節(jié)點中，子分類 URL 則又在子節(jié)點 a 的 href 屬性中，大分類一共有 14 個，子分類一共有 88 個。

到這兒，思路就很清晰了，我們可以用 CSS 提取出全部子分類的 URL，然后分別抓取所需信息即可。

另外還需注意一點，該網(wǎng)站的 首頁信息是靜態(tài)加載的，從第 2 頁開始是采用了 Ajax 動態(tài)加載，URL 不同，需要分別進行解析提取。

2. Scrapy抓取

我們要爬取兩部分內(nèi)容，一是 APP 的數(shù)據(jù)信息，包括前面所說的：名稱、安裝數(shù)量、體積、評論等；二是下載每款 App 的圖標，分文件夾進行存放。

由于該網(wǎng)站有一定的反爬措施，所以我們需要添加隨機 UA 和代理 IP，關(guān)于這兩個知識點，我此前單獨寫了兩篇文章進行鋪墊，傳送門：

Scrapy 中設(shè)置隨機 User-Agent 的方法匯總

Python 爬蟲的代理 IP 設(shè)置方法匯總

這里隨機 UA 使用 **scrapy-fake-useragent **庫，一行代碼就能搞定，代理 IP 直接上阿布云付費代理，幾塊錢搞定簡單省事。

下面，就直接上代碼了：

（1）items.py

（2）middles.py

中間件主要用于設(shè)置代理 IP。

（3）.py

該文件用于存儲數(shù)據(jù)到 MongoDB 和下載圖標到分類文件夾中。

存儲到 MongoDB：

按文件夾下載圖標：

（4）settings.py

（5）wandou.py

主程序這里列出關(guān)鍵的部分：

這里，首先定義幾個 URL，包括：分類頁面、子分類首頁、子分類 AJAX 頁，也就是第 2 頁開始的 URL，然后又定義了一個類 Get_category() 專門用于提取全部的子分類 URL，稍后我們將展開該類的代碼。

程序從 start_requests 開始運行，解析首頁獲得響應(yīng)，調(diào)用 get_category() 方法，然后使用 Get_category() 類中的 parse_category() 方法提取出所有 URL，具體代碼如下：

這里，除了分類名稱 cate_name 可以很方便地直接提取出來，分類編碼和子分類的子分類的名稱和編碼，我們使用了 get_category_code() 等三個方法進行提取。提取方法使用了 CSS 和正則表達式，比較簡單。

最終提取的分類名稱和編碼結(jié)果如下，利用這些編碼，我們就可以構(gòu)造 URL 請求開始提取每個子分類下的 App 信息了。

接著前面的 get_category() 繼續(xù)往下寫，提取 App 的信息：

這里，依次提取出全部的分類名稱和編碼，用于構(gòu)造請求的 URL。由于首頁的 URL 和第 2 頁開始的 URL 形式不同，所以使用了 if 語句分別進行構(gòu)造。接下來，請求該 URL 然后調(diào)用 self.parse() 方法進行解析，這里使用了 meta 參數(shù)用于傳遞相關(guān)參數(shù)。

最后，parse() 方法用來解析提取最終我們需要的 App 名稱、安裝量等信息，解析完成一頁后，page 進行遞增，然后重復(fù)調(diào)用 parse() 方法循環(huán)解析，直到解析完全部分類的最后一頁。

最終，幾個小時后，我們就可以完成全部 App 信息的抓取，我這里得到 73,755 條信息和 72,150 個圖標，兩個數(shù)值不一樣是因為有些 App 只有信息沒有圖標。

圖標下載：

下面將對提取的信息，進行的數(shù)據(jù)分析。

三、數(shù)據(jù)分析

1. 總體情況

首先來看一下 App 的安裝量情況，畢竟 70000 多款 App，自然很感興趣 哪些 App 使用地最多，哪些又使用地最少。

代碼實現(xiàn)如下：

看了上圖，有兩個「沒想到」：

排名第一的居然是一款手機管理軟件對豌豆莢網(wǎng)上的這個第一名感到意外，一是，好奇大家都那么愛手機清理或者怕中毒么？畢竟，我自己的手機都「裸奔」了好些年；二是，第一名居然不是鵝廠的其他產(chǎn)品，比入「微信」或者「QQ」。
榜單放眼望去，以為會出現(xiàn)的沒有出現(xiàn)，沒有想到的卻出現(xiàn)了前十名中，居然出現(xiàn)了書旗小說、印客這些比較少聽過的名字，而國民 App 微信、支付寶等，甚至都沒有出現(xiàn)在這個榜單中。

帶著疑問和好奇，分別找到了「騰訊手機管家」和「微信」兩款 App 的主頁：

騰訊手機管家下載和安裝量：

微信下載和安裝量：

這是什么情況?

騰訊管家 3 億多的下載量等同于安裝量，而微信 20 多億的下載量，只有區(qū)區(qū)一千多萬的安裝量，兩組數(shù)據(jù)對比，大致反映了兩個問題：

要么是騰訊管家的下載量實際并沒有那么多？
要么是微信的下載量寫少了？

不管是哪個問題，都反映了一個問題：該網(wǎng)站做得不夠走心啊。

為了證明這個觀點，將前十名的安裝量和下載量都作了對比，發(fā)現(xiàn)很多 App 的安裝量都和下載量是一樣的，也就是說：這些 App 的實際下載量并沒有那么多，而如果這樣的話，那么這份榜單就有很大水分了。

難道，辛辛苦苦爬了那么久，就得到這樣的結(jié)果？

不死心，接著再看看安裝量最少的 App 是什么情況，這里找出了其中最少的 10 款：

掃了一眼，更加沒想到了：「QQ 音樂」竟然是倒數(shù)第一，竟然只有 3 次安裝量！

確定這和剛剛上市、市值千億的 QQ 音樂是同一款產(chǎn)品?

再次核實了一下：

沒有看錯，是寫著 3人安裝！

這是已經(jīng)不走心到什么程度了？?這個安裝量，鵝廠還能「用心做好音樂」?

說實話，到這兒已經(jīng)不想再往下分析下去了，擔心爬扒出更多沒想到的東西，不過辛苦爬了這么久，還是再往下看看吧。

看了首尾，我們再看看整體，了解一下全部 App 的安裝數(shù)量分布，這里去除了有很大水分的前十名 App。

很驚訝地發(fā)現(xiàn)，竟然有 多達 67,195 款，占總數(shù)的 94% 的 App 的安裝量不足 1萬！

如果這個網(wǎng)站的所有數(shù)據(jù)都是真的話，那么上面排名第一的手機管家，它 一款就差不多抵得上這 6 萬多款 App 的安裝量了！

對于多數(shù) App 開發(fā)者，只能說：**現(xiàn)實很殘酷，辛苦開發(fā)出來的 App，用戶不超過 1萬人的可能性高達近 95% **。

代碼實現(xiàn)如下：

2. 分類情況

下面，我們來看看各分類下 App 情況，不再看安裝量，而看數(shù)量，以排出干擾。

可以看到 14 個大分類中，每個分類的 App 數(shù)量差距都不大，數(shù)量最多的「生活休閑」是「攝影圖像」的兩倍多一點。

接著，我們進一步看看 88 個子分類的 App 數(shù)量情況，篩選出數(shù)量最多和最少的 10 個子類：

可以發(fā)現(xiàn)兩點有意思的現(xiàn)象：

「收音機」類別 App 數(shù)量最多，達到 1,300 多款這個很意外，當下收音機完全可以說是個老古董了，居然還有那么人去開發(fā)。
App 子類數(shù)量差距較大最多的「收音機」是最少的「動態(tài)壁紙」近 20 倍，如果我是一個 App 開發(fā)者，那我更愿意去嘗試開發(fā)些小眾類的 App，競爭小一點，比如：「背單詞」、「小兒百科」這些。

看完了總體和分類情況，突然想到一個問題：這么多 App，有沒有重名的呢？

驚奇地發(fā)現(xiàn)，叫「一鍵鎖屏」的 App 多達 40 款，這個功能 App 很難再想出別的名字了么？現(xiàn)在很多手機都支持觸控鎖屏了，比一鍵鎖屏操作更加方便。

接下來，我們簡單對比下豌豆莢和酷安兩個網(wǎng)站的 App 情況。

3. 對比酷安

二者最直觀的一個區(qū)別是在 App 數(shù)量上，豌豆莢擁有絕對的優(yōu)勢，達到了酷安的十倍之多，那么我們自然感興趣：豌豆莢是否包括了酷安上所有的 App ?

如果是，「你有的我都有，你沒有的我也有」，那么酷安就沒什么優(yōu)勢了。統(tǒng)計之后，發(fā)現(xiàn)豌豆莢 僅包括了 3,018 款，也就是一半左右，剩下的另一半則沒有包括。

這里面固然存在兩個平臺上 App 名稱不一致的現(xiàn)象，但更有理由相信酷安很多小眾的精品 App 是獨有的，豌豆莢并沒有。

代碼實現(xiàn)如下：

接下來，我們看看所包含的 App 當中，在兩個平臺上的下載量是怎么樣的：

可以看到，兩個平臺上 App 下載數(shù)量差距還是很明顯。

最后，我面再看看豌豆莢上沒有包括哪些APP：

可以看到很多神器都沒有包括，比如：RE、綠色守護、一個木函等等。豌豆莢和酷安的對比就到這里，如果用一句話來總結(jié)，我可能會說：豌豆莢太牛逼了， App 數(shù)量是酷安的十倍，所以我選酷安。

以上，就是利用 Scrapy 爬取分類多級頁面的抓取和分析的一次實戰(zhàn)。

作者：高級農(nóng)民工，公眾號：第2大腦

本文由 @高級農(nóng)民工原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載

題圖來自Unsplash，基于CC0協(xié)議

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

蘇克1900

1篇作品 8063總閱讀量

外賣柜，困住外賣小哥

09-261863 瀏覽

下班玩VR繪畫兩個月，我接到近萬元的商單

02-081681 瀏覽

長視頻格局生變，優(yōu)愛騰芒B能否走出無限競爭？

04-122537 瀏覽

電商平臺的千人千面與千人一面

12-263693 瀏覽

6000字拆解｜「菜鳥裹裹」寄件取件業(yè)務(wù)設(shè)計解析

04-1511995 瀏覽

評論

陳門立雪

技術(shù)型產(chǎn)品經(jīng)理啊

最近來自江蘇回復(fù)
正在發(fā)育

酷安機佬前來留言

最近來自河南回復(fù)
1. 蘇克1900 作者回復(fù)正在發(fā)育
  
  機佬666
  
  最近來自河北回復(fù)
東方之珠

你說的神器，我曾用過re，另外一個沒聽說過，我只從華為市場下app

最近回復(fù)
1. 蘇克1900 作者回復(fù)東方之珠
  
  酷安誰用誰知道
  
  最近來自河北回復(fù)