我從騰訊那“偷 了”3000萬QQ用戶數(shù)據(jù),出了份很有趣的獨(dú)家報(bào)告!

18 評論 29091 瀏覽 30 收藏 10 分鐘

兩周前,做的一個(gè)項(xiàng)目需要模擬一批用戶評價(jià)數(shù)據(jù),如果想讓數(shù)據(jù)看著真實(shí)點(diǎn),那就得使用隨機(jī)的用戶昵稱和頭像啊。要是頭像或者昵稱全都差不多,那別人一看就看出來這是做的數(shù)據(jù)了。

于是乎我就寫了個(gè)從我QQ空間開始的蜘蛛網(wǎng)式的爬蟲程序,程序斷斷續(xù)續(xù)的運(yùn)行了兩周。總共爬到了騰訊3000萬QQ數(shù)據(jù),其中有300萬包含用戶(QQ號,昵稱,空間名稱,會(huì)員級別,頭像,最新一條說說內(nèi)容,最新說說的發(fā)表時(shí)間,空間簡介,性別,生日,所在省份,城市,婚姻狀況)的詳細(xì)數(shù)據(jù)。

目前已經(jīng)爬到我的第7圈好友(depth=7)共3000萬數(shù)據(jù),目前的瓶頸在家里的網(wǎng)速和電腦的配置上。 最快的時(shí)候爬取速度達(dá)到一天500W新Q數(shù)據(jù)。

沒圖,我說個(gè)毛線??!

目前數(shù)據(jù)量為2G左右。

1f87bddb7eab9d3dde5115a398e90b9b

再看看,我根據(jù)這份數(shù)據(jù)生成的一些有趣的統(tǒng)計(jì)圖(數(shù)據(jù)量太大了一次加載到內(nèi)存中直接報(bào)內(nèi)存不夠了,所以下面的統(tǒng)計(jì)數(shù)據(jù)只取了depth值小數(shù)據(jù)較完整約80W的數(shù)據(jù)):

內(nèi)存已經(jīng)爆了,不能怪我。 誰贊助臺服務(wù)器吧~~

5dc30cb7b4e9987436fb134d3b61ea78

大家一般都在啥時(shí)候發(fā)說說呢?

從圖中看出一天最冷門的時(shí)候是凌晨4點(diǎn),這時(shí)全國正在睡覺的人最多。 大家最亢奮的是晚上10點(diǎn)到11點(diǎn),人們都喜歡睡前看看別人的空間,發(fā)條說說。中午12點(diǎn)左右也有一波小高峰

一會(huì)我再統(tǒng)計(jì)張中國人習(xí)慣幾點(diǎn)起床,幾點(diǎn)吃飯,幾點(diǎn)睡覺的圖吧

f11367cd8eb5c33bdbd9a1f249e2a710

中國人都喜歡在幾月生小孩呢?

最熱門的是1月份和10月份,最冷門的是4月份。10月份生小孩的多好理解,一年忙差不多了,天氣也不冷不熱正是生小孩的好時(shí)候。 但1月份最高且和2月落差很大有點(diǎn)不好理解,那么冷的天生不怕凍嗎? 我估計(jì)是1月份也快過年了,以前沒聚一起的好不容易聚一起了,就容易沖動(dòng),沖動(dòng)就啪啪啪。 4月份生日的最少也好理解,中國人不喜歡4這個(gè)數(shù)字唄。 大數(shù)據(jù)有意思吧??! 我覺得太好玩了,后面還有很多呢。

bda64a70a9c0e4b5e4c18c76177b67dc

這是我目前爬取的用戶所在地分布

你能猜出我是哪的了嗎?前四名分別為:廣東,湖南,四川,江蘇。 沒錯(cuò),我就是湖南的! 湖南人在廣東打工的超級多,這也能理解為什么廣東排名第一了。江蘇是我上學(xué)的地方,有點(diǎn)琢磨不透的是四川和我非情非故的居然排第3名,我的朋友們,你們是誰播的種?站出來! 還有一種可能,四川人交際能力全國第一,我平時(shí)在重慶小面吃飯,四川人確實(shí)特別,說話語速那個(gè)快啊,聲調(diào)那個(gè)高啊。受不了!

a2cc0e95784d1108ec59afac1944d62b

數(shù)據(jù)人群的年齡分布

一不小心就暴漏了我的年齡,沒錯(cuò)。我就是那個(gè)最高值的1990年;從目前的數(shù)據(jù)來看,無論是分布地區(qū)以及年齡階段與我的關(guān)聯(lián)還非常大,隨著數(shù)據(jù)量的不斷增加這種關(guān)聯(lián)會(huì)逐漸變小,統(tǒng)計(jì)圖也會(huì)逐漸接近全國用戶的真實(shí)情況。真想弄幾臺服務(wù)器分布式搞起,估計(jì)一周就能爬上億的簡單數(shù)據(jù)。 單靠我的筆記本和家里超爛的網(wǎng)速達(dá)到這個(gè)目標(biāo)還很遠(yuǎn)。

d80eb483302aba03d699b0d4adf4cab5

數(shù)據(jù)人群性別分布

男比女足足多了23%的人數(shù),我分析認(rèn)為實(shí)際差距應(yīng)該是不大的,但女生在設(shè)置QQ空間訪問權(quán)限時(shí)普遍要比男生的高。所以我爬取的數(shù)據(jù)中男生居多。

a2f29fd0a877e68eaeb5927257c8225a

下面系列圖是根據(jù)一些“關(guān)鍵字”在說說中出現(xiàn)的頻率統(tǒng)計(jì)出來的,相當(dāng)有意思。

圖說股市

在知乎“能利用爬蟲技術(shù)做到哪些很酷很有趣很有用的事情?” 有一個(gè)google實(shí)習(xí)的哥們@Emily L爬了400億條tweet也做了很多有趣的分,其中提到一篇關(guān)于利用twitter上人的心情來預(yù)測股市的論文()很有意思。另附我在該問題下的答案“用爬蟲監(jiān)測她(他)的知乎動(dòng)態(tài)”,僅做技術(shù)玩樂,求別再噴我猥瑣了。

如果當(dāng)我們擁有海量的QQ空間最新說說,和sina微博數(shù)據(jù)。我想,用它們來做一些股市或者其它方面的分析預(yù)測是可行的,準(zhǔn)確度應(yīng)該也是非常高的。我接下來可能會(huì)考慮去做這件有趣的事情。

將股票中的關(guān)鍵字做海量數(shù)據(jù)分析,比如會(huì)得出當(dāng)日討論股票排行榜。進(jìn)而能得到海量討論股票的用戶,再通過市場的實(shí)際反饋找出股票上漲及下跌的正相關(guān)因子,再對這些海量用戶進(jìn)行分析計(jì)算得出最靠譜股票推薦大神排行榜。對這些用戶分級,分優(yōu)先度及抓取密度來拿數(shù)據(jù)。用這些數(shù)據(jù)分析出哪些是靠譜的股票肯定靠譜。

09dcc3abe4755dfb2b77d8c7a2aba10b

群眾討論最多的明星排行榜,還是很靠譜的。

另附我抓的明星QQ號吧,純屬娛樂,自辯真假。有些空間確實(shí)有很多生活私照。

張杰QQ:419998

花千骨的趙麗穎QQ:427794

謝娜QQ:500746

楊冪QQ:456773

周杰倫QQ:332661

6ced1b9b8c6f7f88232591e7315a4ab6

最為用戶喜愛的手機(jī)品牌

4ff8ecb4c6d0ccc52b4811a834d13926

人們最喜歡談?wù)摰幕ヂ?lián)網(wǎng)公司,阿里之所以這么低估計(jì)是大家都喜歡叫它淘寶或者天貓吧。 取這么多名字,自討苦吃。

db9e568ff989dc8b777c7bbfca86738d

?QQ空間中討論的最為頻繁的社交平臺排行榜。

246fb3d2cc5e90af253cd3ec168ebafd

生活的統(tǒng)計(jì)圖

愛>恨; 開心>傷心; 笑聲>嘆氣聲; 吃貨很多; 誰特么說中國不幸福了,這滿滿的都是正能量數(shù)據(jù)啊。

e88dd93028569e54d6ac8ae8855e258a

好了,其實(shí)還可以做很多其它的分析。如果大家有什么有趣的數(shù)據(jù)分析想知道的,那就給我留言吧。

技術(shù)不多說了,程序不難,多線程數(shù)據(jù)庫操作卻是把我搞苦了。還好,現(xiàn)在程序差不多穩(wěn)定了。過程也是很有意思的,有空我再寫個(gè)程序升級過程中的那些趣事吧。我覺得一個(gè)美妙的程序一定是高度模擬現(xiàn)實(shí)的,就像飛機(jī)模仿蜻蜓,雷達(dá)模仿蝙蝠一樣。 這次的程序設(shè)計(jì)就是模擬的工廠的生產(chǎn)線。附個(gè)設(shè)計(jì)圖吧。

0c33f55ead328bd3b87735592f9254da

35e371272fc4d3caecfc627c2a61bc61

1a6930b67e11d79c5079c06a5e3829c8

 

作者:hi@wuxinsheng.com

來源:博客園

原文地址:http://www.cnblogs.com/cinser/p/4656386.html

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 看到第二段就懶得看了,出生月份表現(xiàn)出幾月份生小孩?人們都是幾月份啪啪啪就當(dāng)場生下來嗎?1月份和10月份出生人口最多,那應(yīng)該往前推9~10個(gè)月才是人們“生小孩”活動(dòng)的最高峰。

    來自上海 回復(fù)
  2. :mrgreen: 樓主好厲害!

    來自重慶 回復(fù)
  3. 樓主,他們很多空間都是需要訪問權(quán)限的,請問你的爬蟲是怎么繞過這些權(quán)限的呀?

    來自重慶 回復(fù)
  4. 求問爬數(shù)據(jù)的方法

    來自廣東 回復(fù)
  5. 能不能分析一下玩LOL的人數(shù) 性別 年齡 段位 等一些信息呢

    來自上海 回復(fù)
  6. 求問大神,這些數(shù)據(jù)要怎么爬啊 ?? ??

    來自廣東 回復(fù)
  7. 明顯的一篇軟文貼

    來自廣西 回復(fù)
  8. 有誰知道樓主是用什么工具做的統(tǒng)計(jì)圖???

    來自福建 回復(fù)
  9. 你們就看不出來這是一篇營銷貼嗎!

    來自北京 回復(fù)
  10. 你QQ多少啊,能交流一下嗎?

    來自廣東 回復(fù)
  11. 現(xiàn)在很多女性空間都要有訪問權(quán)限的,這些也能爬?

    來自廣東 回復(fù)
  12. 我居然在第一個(gè)圖里看到了十年長白!
    眼睛要瞎了臥槽(#?Д?)
    盜墓黨無處不在。。。關(guān)注點(diǎn)啊喂
    不過這個(gè)技能好棒!
    好想get一下(●—●)

    來自江蘇 回復(fù)
  13. 求源碼,哈哈! :mrgreen:

    來自四川 回復(fù)
  14. 求爬蟲源碼

    來自浙江 回復(fù)
  15. 只是對數(shù)據(jù)分析,這個(gè)不太明白,希望懂得前輩能指點(diǎn)一下,我的觀點(diǎn)錯(cuò)誤,或是一起討論一下.謝謝大家

    來自北京 回復(fù)
    1. ? 一編輯 原來的話都沒了, 原話: 樓主是1990的,好友也是接近1990這個(gè)年齡段的,以此輻射出去的好友,是否也都是這個(gè)上下的.用這份數(shù)據(jù)來統(tǒng)計(jì),表現(xiàn)中國人的 行為,特性 是否不太準(zhǔn)確.

      來自北京 回復(fù)
  16. 太牛了,我也想學(xué)這門神技,請問小白學(xué)習(xí)這種技能該怎么起步

    來自北京 回復(fù)
  17. 臥槽 這個(gè)分析牛逼了。。。。。。。。

    來自安徽 回復(fù)