久久成人国产精品免费软件,人人狠狠丁香五月,中文在线aⅴ免费播放

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

以虎嗅網(wǎng)4W+文章的文本挖掘為例，展現(xiàn)數(shù)據(jù)分析的一整套流程

蘇格蘭折耳喵

2017-12-11

33 評論 65932 瀏覽 398 收藏

57 分鐘

本文作者將結(jié)合自身經(jīng)驗，并以實際案例的形式進(jìn)行呈現(xiàn)，涉及從數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)分析再到數(shù)據(jù)可視化的一整套流程分析，力求條理清晰的展現(xiàn)外部數(shù)據(jù)分析的強大威力。enjoy~

在八月份，筆者曾經(jīng)寫過一篇針對外部數(shù)據(jù)分析的文章，一部分讀者看過此文后，向筆者反映，說對外部數(shù)據(jù)的分析跳出了原有的只針對企業(yè)內(nèi)部數(shù)據(jù)分析（用戶數(shù)據(jù)、銷售數(shù)據(jù)、流量數(shù)據(jù)等）的窠臼，在企業(yè)自身數(shù)據(jù)資源不足或質(zhì)量不佳的情況下，往往能給產(chǎn)品、運營、營銷帶來意想不到的啟迪，為數(shù)據(jù)化驅(qū)動業(yè)務(wù)增長打開了一扇窗……

由于筆者目前從事社會化媒體大數(shù)據(jù)挖掘方面的工作，不可避免的涉及到許多大數(shù)據(jù)語義分析的實際應(yīng)用場景。由此，筆者將工作中的若干心得，以實際案例的形式進(jìn)行呈現(xiàn)，涉及從數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)分析再到數(shù)據(jù)可視化的一整套流程分析，力求條理清晰的展現(xiàn)外部數(shù)據(jù)分析的強大威力。以下是本文的寫作框架：

1. 分析背景

1.1?分析原理：為什么選擇分析虎嗅網(wǎng)

在現(xiàn)今數(shù)據(jù)爆炸、信息質(zhì)量良莠不齊的互聯(lián)網(wǎng)時代，我們無時無刻不身處在互聯(lián)網(wǎng)社會化媒體的“信息洪流”之中，因而無可避免的被它上面泛濫的信息所“裹挾”，也就是說，社會化媒體上的信息對現(xiàn)實世界中的每個人都有重大影響，社會化媒體是我們間接了解現(xiàn)實客觀世界和主觀世界的一面窗戶，我們每時每刻都在受到它的影響。關(guān)于“社會化媒體”方面的內(nèi)容，請參看《干貨｜如何利用Social Listening從社會化媒體中“提煉”有價值的信息？》，以下內(nèi)容也摘自該文：

綜合上述兩類情形，可以得出這樣的結(jié)論，透過社會化媒體，我們可以觀察現(xiàn)實世界：

由此，社會化媒體是現(xiàn)實主客觀世界的一面鏡子，而它也會進(jìn)一步影響人們的行為，如果我們對該領(lǐng)域中的優(yōu)質(zhì)媒體所發(fā)布的信息進(jìn)行分析，除了可以了解該領(lǐng)域的發(fā)展進(jìn)程和現(xiàn)狀，還可以對該領(lǐng)域的人群行為進(jìn)行一定程度的預(yù)判。

鑒于此種情況，作為互聯(lián)網(wǎng)從業(yè)者的筆者想分析一下互聯(lián)網(wǎng)行業(yè)的一些現(xiàn)狀，第一步是找到在互聯(lián)網(wǎng)界有著重要影響力媒體，上次分析的是“人人的是產(chǎn)品經(jīng)理”（請參看《?干貨｜作為一個合格的“增長黑客”，你還得重視外部數(shù)據(jù)的分析！》），這次筆者想到的是虎嗅網(wǎng)。

虎嗅網(wǎng)創(chuàng)辦于2012年5月，是一個聚合優(yōu)質(zhì)創(chuàng)新信息與人群的新媒體平臺。該平臺專注于貢獻(xiàn)原創(chuàng)、深度、犀利優(yōu)質(zhì)的商業(yè)資訊，圍繞創(chuàng)新創(chuàng)業(yè)的觀點進(jìn)行剖析與交流?；⑿峋W(wǎng)的核心，是關(guān)注互聯(lián)網(wǎng)及傳統(tǒng)產(chǎn)業(yè)的融合、一系列明星公司（包括公眾公司與創(chuàng)業(yè)型企業(yè)）的起落軌跡、產(chǎn)業(yè)潮汐的動力與趨勢。

因此，對該平臺上的發(fā)布內(nèi)容進(jìn)行分析，對于研究互聯(lián)網(wǎng)的發(fā)展進(jìn)程和現(xiàn)狀有一定的實際價值。

1.2 本文的分析目的

筆者在本項目中的分析目的主要有4個：

（1）對虎嗅網(wǎng)內(nèi)容運營方面的若干分析，主要是對發(fā)文量、收藏量、評論量等方面的描述性分析；

（2）通過文本分析，對互聯(lián)網(wǎng)行業(yè)的一些人、企業(yè)和細(xì)分領(lǐng)域進(jìn)行趣味性的分析；

（3）展現(xiàn)文本挖掘在數(shù)據(jù)分析領(lǐng)域的實用價值；

（4）將雜蕪無序的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行可視化，展現(xiàn)數(shù)據(jù)之美。

1.3?分析方法：分析工具和分析類型

本文中，筆者使用的數(shù)據(jù)分析工具如下：

Python3.5.2（編程語言）
Gensim（詞向量、主題模型）
Scikit-Learn（聚類和分類）
Keras（深度學(xué)習(xí)框架）
Tensorflow（深度學(xué)習(xí)框架）
Jieba(分詞和關(guān)鍵詞提取)
Excel（可視化）
Seaborn（可視化）
Bokeh（可視化）
Gephi（網(wǎng)絡(luò)可視化）
Plotly（可視化）

使用上述數(shù)據(jù)分析工具，筆者將進(jìn)行2類數(shù)據(jù)分析：第一類是較為傳統(tǒng)的、針對數(shù)值型數(shù)據(jù)的描述下統(tǒng)計分析，如閱讀量、收藏量等在時間維度上的分布；另一類是本文的重頭戲—深層次的文本挖掘，包括關(guān)鍵詞提取、文章內(nèi)容LDA主題模型分析、詞向量/關(guān)聯(lián)詞分析、ATM模型、詞匯分散圖和詞聚類分析。

2. 數(shù)據(jù)采集和文本預(yù)處理

2.1?數(shù)據(jù)采集

筆者使用爬蟲采集了來自虎嗅網(wǎng)主頁的文章（并不是全部的文章，但展示在主頁的信息是主編精挑細(xì)選的，很具代表性），數(shù)據(jù)采集的時間區(qū)間為2012.05~2017.11，共計41,121篇。采集的字段為文章標(biāo)題、發(fā)布時間、收藏量、評論量、正文內(nèi)容、作者名稱、作者自我簡介、作者發(fā)文量，然后筆者人工提取4個特征，主要是時間特征（時點和周幾）和內(nèi)容長度特征（標(biāo)題字?jǐn)?shù)和文章字?jǐn)?shù)），最終得到的數(shù)據(jù)如下圖所示:

2.2?數(shù)據(jù)預(yù)處理

數(shù)據(jù)分析/挖掘領(lǐng)域有一條金科玉律：“Garbage in, Garbage out”，做好數(shù)據(jù)預(yù)處理，對于取得理想的分析結(jié)果來說是至關(guān)重要的。本文的數(shù)據(jù)規(guī)整主要是對文本數(shù)據(jù)進(jìn)行清洗，處理的條目如下：

（1）文本分詞

要進(jìn)行文本挖掘，分詞是最為關(guān)鍵的一步，它直接影響后續(xù)的分析結(jié)果。筆者使用jieba來對文本進(jìn)行分詞處理，它有3類分詞模式，即全模式、精確模式、搜索引擎模式：

精確模式：試圖將句子最精確地切開，適合文本分析；
全模式：把句子中所有的可以成詞的詞語都掃描出來, 速度非?？?，但是不能解決歧義；
搜索引擎模式：在精確模式的基礎(chǔ)上，對長詞再次切分，提高召回率，適合用于搜索引擎分詞。

現(xiàn)以“定位理論認(rèn)為營銷的終極戰(zhàn)場在于消費者心智”為例，3種分詞模式的結(jié)果如下：

【全模式】: 定位/理論/定位理論/認(rèn)為/營銷/的/終極/戰(zhàn)場/終極戰(zhàn)場/在/于/在于/消費者/心智/消費者心智
【精確模式】: 定位理論/認(rèn)為/營銷/的/終極戰(zhàn)場/在于/消費者心智
【搜索引擎模式】：定位，理論，定位理論，認(rèn)為，營銷，的，終極，戰(zhàn)場，終極戰(zhàn)場，在于，消費者心智，消費者，心智

為了避免歧義和切出符合預(yù)期效果的詞匯，筆者采取的是精確（分詞）模式。

（2）?去停用詞

這里的去停用詞包括以下三類：

標(biāo)點符號：，。！ /、*+-
特殊符號：?????????????▲?等
無意義的虛詞：“the”、“a”、“an”、“that”、“你”、“我”、“他們”、“想要”、“打開”、“可以”等

（3）去掉高頻詞、稀有詞和計算Bigrams

去掉高頻詞、稀有詞是針對后續(xù)的主題模型（LDA、ATM）時使用的，主要是為了排除對區(qū)隔主題意義不大的詞匯，最終得到類似于停用詞的效果。

Bigrams是為了自動探測出文本中的新詞，基于詞匯之間的共現(xiàn)關(guān)系—如果兩個詞經(jīng)常一起毗鄰出現(xiàn)，那么這兩個詞可以結(jié)合成一個新詞，比如“數(shù)據(jù)”、“產(chǎn)品經(jīng)理”經(jīng)常一起出現(xiàn)在不同的段落里，那么，“數(shù)據(jù)_產(chǎn)品經(jīng)理”則是二者合成出來的新詞，只不過二者之間包含著下劃線。

3. 描述性分析

該部分中，筆者主要對數(shù)值型數(shù)據(jù)進(jìn)行描述性的統(tǒng)計分析，它屬于較為常規(guī)的數(shù)據(jù)分析，能揭示出一些問題，做到知其然，關(guān)于數(shù)據(jù)分析的4種類型，詳情請參看《干貨｜作為一個合格的“增長黑客”，你還得重視外部數(shù)據(jù)的分析！》的第一部分。

3.1?發(fā)文數(shù)量、評論量和收藏量的變化走勢

從下圖可以看出，在2012.05~2017.11期間，以季度為單位，主頁的發(fā)文數(shù)量起伏波動不大，在均值1800上下波動，進(jìn)入2016年后，發(fā)文數(shù)量有明顯提升。

此外，一頭（2012年第二季）一尾（2017年第四季）因為沒有統(tǒng)計完全，所以發(fā)文數(shù)量較小。

下圖則是該時間段內(nèi)收藏量和評論量的變化情況，評論量的變化不慍不火，起伏不大，但收藏量一直在攀升中，尤其是在2017年的第二季達(dá)到峰值。收藏量在一定程度上反映了文章的干貨程度和價值性，讀者認(rèn)為有價值的文章才會去保留和收藏，反復(fù)閱讀，含英咀華，這說明虎嗅的文章質(zhì)量在不斷提高，或讀者的數(shù)量在增長。

3.2?發(fā)文時間規(guī)律分析

筆者從時間維度里提取出“周”和“時段”的信息，也就是開題提到的“人工特征”的提取，現(xiàn)在做文章分布數(shù)量的在“周”和“時”上的交叉分析，得到下圖：

上圖是一個熱力圖，色塊顏色上的由暖到冷表征數(shù)值的由大變小。很明顯的可以看到，中間有一個顏色很明顯的區(qū)域，即由“6時~19時”和“周一~周五”圍成的矩形，也就是說，發(fā)文時間主要集中在工作日的白天。另外，周一到周五期間，6時~7時這個時間段是發(fā)文的高峰，說明虎嗅的內(nèi)容運營人員傾向于在工作日的清晨發(fā)布文章，這也符合它的人群定位—TMT領(lǐng)域從業(yè)、創(chuàng)業(yè)者、投資人，他們中的許多人有晨讀的習(xí)慣，喜歡在趕地鐵、坐公交的過程中閱讀虎嗅訊息。發(fā)文高峰還有9時-11時這個高峰，是為了提前應(yīng)對讀者午休時間的閱讀，還有17時~18時，提前應(yīng)對讀者下班時間的閱讀。

3.3?相關(guān)性分析

筆者一直很好奇，文章的評論量、收藏量和標(biāo)題字?jǐn)?shù)、文章字?jǐn)?shù)是否存在統(tǒng)計學(xué)意義上的相關(guān)性關(guān)系。基于此，筆者繪制出能反映上述變量關(guān)系的兩張圖。

首先，筆者做出了標(biāo)題字?jǐn)?shù)、文章字?jǐn)?shù)和評論量之間的氣泡圖（圓形的氣泡被六角星替代，但本質(zhì)上還是氣泡圖）。

上圖中，橫軸是文章字?jǐn)?shù)，縱軸是標(biāo)題字?jǐn)?shù)，評論數(shù)大小由六角星的大小和顏色所反映，顏色越暖，數(shù)值越大，五角星越大，數(shù)值越大。從這張圖可以看出，文章評論量較大的文章，絕大部分分布于由文章字?jǐn)?shù)6000字、標(biāo)題字?jǐn)?shù)20字所構(gòu)成的區(qū)域內(nèi)。虎嗅網(wǎng)上的商業(yè)資訊文章大都具有原創(chuàng)、深度的特點，文章篇幅中長，意味著能把事情背后的來龍去脈論述清楚，而且標(biāo)題要能夠吸引人，引發(fā)讀者的大量閱讀，合適長度標(biāo)題和正文篇幅才能做到這一點。

接下來，筆者將收藏量、評論量和標(biāo)題字?jǐn)?shù)、文章字?jǐn)?shù)繪制成一張3D立體圖，X軸和Y軸分別為標(biāo)題字?jǐn)?shù)和正文字?jǐn)?shù)，Z軸為收藏量和評論量所構(gòu)成的平面，通過旋轉(zhuǎn)這個3維的Surface圖，我們可以發(fā)現(xiàn)收藏量、評論量和標(biāo)題字?jǐn)?shù)、文章字?jǐn)?shù)之間的相關(guān)關(guān)系。

注意，上圖的數(shù)值表示和前面幾張圖一樣，顏色上的由暖到冷表示數(shù)值的由大到小，通過旋轉(zhuǎn)各維度的截面，可以看到在正文字?jǐn)?shù)5000字以內(nèi)、標(biāo)題字?jǐn)?shù)15字左右的收藏量和評論量形成的截面出現(xiàn)“華山式”陡峰，因而這里的收藏量和評論量最大。

3.4?城市提及分析

在這里，筆者通過構(gòu)建一個包含全國1~5線城市的詞表，提取出經(jīng)過預(yù)處理后的文本中的城市名稱，根據(jù)提及頻次的大小，繪制出一張反映城市提及頻次的地理分布地圖，進(jìn)而間接地了解各個城市互聯(lián)網(wǎng)的發(fā)展?fàn)顩r（一般城市的提及跟互聯(lián)網(wǎng)產(chǎn)業(yè)、產(chǎn)品和職位信息掛鉤，能在一定程度上反映該城市互聯(lián)網(wǎng)行業(yè)的發(fā)展態(tài)勢）。

上圖反映的結(jié)果比較符合常識，北上深廣杭這些一線城市的提及次數(shù)最多，它們是互聯(lián)網(wǎng)行業(yè)發(fā)展的重鎮(zhèn)。值得注意的是，長三角地區(qū)的大塊區(qū)域（長江三角洲城市群，它包含上海，江蘇省的南京、無錫、常州、蘇州、南通、鹽城、揚州、鎮(zhèn)江、泰州，浙江省的杭州、寧波、嘉興、湖州、紹興、金華、舟山、臺州，安徽省的合肥、蕪湖、馬鞍山、銅陵、安慶、滁州、池州、宣城）呈現(xiàn)出較高的熱度值，直接說明這些城市在虎嗅網(wǎng)各類資訊文章中的提及次數(shù)較多，結(jié)合國家政策和地區(qū)因素，可以這樣理解地圖中反映的這個事實：

長三角城市群是“一帶一路”與長江經(jīng)濟(jì)帶的重要交匯地帶，在中國國家現(xiàn)代化建設(shè)大局和全方位開放格局中具有舉足輕重的戰(zhàn)略地位。中國參與國際競爭的重要平臺、經(jīng)濟(jì)社會發(fā)展的重要引擎，是長江經(jīng)濟(jì)帶的引領(lǐng)發(fā)展區(qū)，是中國城鎮(zhèn)化基礎(chǔ)最好的地區(qū)之一。

接下來，筆者將抽取文本中城市之間的共現(xiàn)關(guān)系，也就是城市之間兩兩同時出現(xiàn)的頻率，在一定程度上反映出城市間經(jīng)濟(jì)、文化、政策等方面的相關(guān)關(guān)系，共現(xiàn)頻次越高，說明二者之間的聯(lián)系緊密程度越高，抽取出的結(jié)果如下表所示：

將上述結(jié)果繪制成如下動態(tài)的流向圖：

由于虎嗅網(wǎng)上的文章大多涉及創(chuàng)業(yè)、政策、商業(yè)方面的內(nèi)容，因而這種城市之間的共現(xiàn)關(guān)系反映出城際間在資源、人員或者行業(yè)方面的關(guān)聯(lián)關(guān)系，本動態(tài)圖中，主要反映的是北上廣深杭（網(wǎng)絡(luò)中的樞紐節(jié)點）之間的相互流動關(guān)系和這幾個一線城市向中西部城市的單向流動情形。流動量大、交錯密集的區(qū)域無疑是中國最發(fā)達(dá)的3個城市群和其他幾個新興的城市群：

京津冀城市群
長江三角洲城市群
珠江三角洲城市群
中原城市群
成渝城市群
長江中游城市群

上面的數(shù)據(jù)分析是基于數(shù)值型數(shù)據(jù)的描述性分析，接下來，筆者將進(jìn)行更為深入的文本挖掘。

4. 文本挖掘

數(shù)據(jù)挖掘是從有結(jié)構(gòu)的數(shù)據(jù)庫中鑒別出有效的、新穎的、可能有用的并最終可理解的模式；而文本挖掘（在文本數(shù)據(jù)庫也稱為文本數(shù)據(jù)挖掘或者知識發(fā)現(xiàn)）是從大量非結(jié)構(gòu)的數(shù)據(jù)中提煉出模式，也就是有用的信息或知識的半自動化過程。關(guān)于文本挖掘方面的相關(guān)知識，請參看《數(shù)據(jù)運營|數(shù)據(jù)分析中，文本分析遠(yuǎn)比數(shù)值型分析重要！（上）》、《在運營中，為什么文本分析遠(yuǎn)比數(shù)值型分析重要？一個實際案例，五點分析（下）》。

本文的文本挖掘部分主要涉及高頻詞統(tǒng)計/關(guān)鍵詞提取/關(guān)鍵詞云、文章標(biāo)題聚類、文章內(nèi)容聚類、文章內(nèi)容LDA主題模型分析、詞向量/關(guān)聯(lián)詞分析、ATM模型、詞匯分散圖和詞聚類分析。

4.1?關(guān)鍵詞提取

對于關(guān)鍵詞提取，筆者沒有采取詞頻統(tǒng)計的方法，因為詞頻統(tǒng)計的邏輯是：一個詞在文章中出現(xiàn)的次數(shù)越多，則它就越重要。因而，筆者采用的是TF-IDF（termfrequency–inverse document frequency）的關(guān)鍵詞提取方法：

它用以評估一字/詞對于一個文件集或一個語料庫中的其中一份文件的重要程度，字/詞的重要性會隨著它在文件中出現(xiàn)的次數(shù)成正比增加，但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。

由此可見，在提取某段文本的關(guān)鍵信息時，關(guān)鍵詞提取較詞頻統(tǒng)計更為可取，能提取出對某段文本具有重要意義的關(guān)鍵詞。

下面是筆者利用jieba在經(jīng)預(yù)處理后的、近400MB的語料中抽取出的TOP100關(guān)鍵詞。

從宏觀角度來看，從上面可以明顯的識別出3類關(guān)鍵詞：

公司品牌類：虎嗅網(wǎng)、蘋果、騰訊、蘋果、小米等；
行業(yè)領(lǐng)域類：行業(yè)、電商、游戲、投資、廣告、人工智能、智能手機等；
創(chuàng)業(yè)、商業(yè)模式類：模式、創(chuàng)新、業(yè)務(wù)、運營、流量、員工等。

從微觀角度來看，居于首要位置的是“用戶”，互聯(lián)網(wǎng)從業(yè)者放在嘴邊的是“用戶為王”、“用戶至上”和“以用戶為中心”，然后是“平臺”和“企業(yè)”。

筆者選取TOP500關(guān)鍵詞來繪制關(guān)鍵詞云。因為虎嗅的名字來源于英國當(dāng)代詩人Siegfried Sassoon的著名詩句“In me the tigersniffs the rose（心有猛虎，細(xì)嗅薔薇），所以詞云以“虎嗅薔薇”為背景，找不到合適的虎嗅薔薇的畫面，于是用它的近親貓作為替代，詞云如下：

4.2 LDA主題模型分析

剛才針對關(guān)鍵詞的分類較為粗略，且人為劃分，難免有失偏頗，達(dá)不到全面的效果。因此，筆者采用LDA主題模型來發(fā)現(xiàn)該語料中的潛在主題。關(guān)于LDA主題模型的相關(guān)原理，請參看《【干貨】用大數(shù)據(jù)文本挖掘，來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢》的第4部分。

一般情況下，筆者將主題的數(shù)量設(shè)定為10個，經(jīng)過數(shù)小時的運行，得到如下結(jié)果：

可以看出，經(jīng)過文本預(yù)處理后的語料比較純凈，通過每個主題下的“主題詞”，可以很容易的從這10個簇群中辨析出若干主題，不過，其中3個主題存在雜糅的情況（每個topic下包含2個主題），但這不影響筆者的后續(xù)分析，主題分類如下表所示：

電商&O2O：該主題包含2個部分，即各大電商平臺（淘寶、京東等）上的零售；O2O(Online線上網(wǎng)店Offline線下消費)，商家通過免費開網(wǎng)店將商家信息、商品信息等展現(xiàn)給消費者，消費者在線上進(jìn)行篩選服務(wù)，并支付，線下進(jìn)行消費驗證和消費體驗。

巨頭戰(zhàn)略：主要是國內(nèi)BAT三家的營收、融資、并購，以及涉足互聯(lián)網(wǎng)新領(lǐng)域方面的資訊。

用戶&社交：主要涉及用戶和社會化媒體（微博、QQ、微信、直播平臺等）方面的資訊。

創(chuàng)業(yè)：涉及創(chuàng)業(yè)人、創(chuàng)新模式、創(chuàng)業(yè)公司等一切關(guān)于創(chuàng)業(yè)的話題，令筆者印象最為深刻的是創(chuàng)業(yè)維艱。

人工智能：進(jìn)入移動互聯(lián)網(wǎng)時代，各類線上數(shù)據(jù)的不斷積累和硬件技術(shù)的突飛猛進(jìn)，大數(shù)據(jù)時代已然來臨，隨之而來的還有人工智能，該領(lǐng)域是時下國內(nèi)外IT巨頭角逐的焦點。

智能手機：智能手機的普及是移動互聯(lián)網(wǎng)時代興起的催化劑之一，2012年以來，“東風(fēng)（國內(nèi)智能手機企業(yè)）”逐漸壓倒“西風(fēng)（國外智能手機企業(yè)）”，國產(chǎn)智能手機品牌整體崛起，蘋果、小米和錘子的每一次手機發(fā)布會總能在互聯(lián)網(wǎng)界引起一片熱議。

影視娛樂：影視文化產(chǎn)業(yè)作為政策力挺、利潤巨大的行業(yè)，吸引著無數(shù)資本的目光。在金融資本與電影產(chǎn)業(yè)碰撞出“火花”的背后，是中國影視消費市場的快速崛起。國外好萊塢大片的不斷引進(jìn)和票房屢創(chuàng)新高，直接刺激著國內(nèi)影視從業(yè)者提升自身的編劇和制片水平，由此誕生了一大批影視佳作，如近三年來的《夏洛特?zé)馈?、《湄公河行動》、《?zhàn)狼2》。

互聯(lián)網(wǎng)金融：互聯(lián)網(wǎng)金融（ITFIN）是指傳統(tǒng)金融機構(gòu)與互聯(lián)網(wǎng)企業(yè)利用互聯(lián)網(wǎng)技術(shù)和信息通信技術(shù)實現(xiàn)資金融通、支付、投資和信息中介服務(wù)的新型金融業(yè)務(wù)模式。2011年以來至今，互聯(lián)網(wǎng)金融所經(jīng)歷的是突飛猛進(jìn)的實質(zhì)性的金融業(yè)務(wù)發(fā)展階段，在這個過程中，國內(nèi)互聯(lián)網(wǎng)金融呈現(xiàn)出多種多樣的業(yè)務(wù)模式和運行機制。該主題下，第三個主題詞“樂視”赫然在目，從2014年年底賈躍亭宣布樂視“SEE計劃“到2017年10月中旬，樂視網(wǎng)巨虧16億，賈躍亭財富縮水400億也不到3年，“眼看他起朱樓,眼看他宴賓客…“

無人駕駛：無人駕駛是通過人工智能系統(tǒng)實現(xiàn)無人駕駛的智能汽車，它在本世紀(jì)尤其是近5年呈現(xiàn)出接近實用化的趨勢，比如，谷歌自動駕駛汽車于2012年5月獲得了美國首個自動駕駛車輛許可證，現(xiàn)在特斯拉的無人駕駛汽車已經(jīng)在市場上在銷售。隨著技術(shù)上和硬件上的不斷進(jìn)步，它日趨成熟，成為國內(nèi)互聯(lián)網(wǎng)巨頭的都想要摘得的桂冠。

游戲&IP：網(wǎng)絡(luò)游戲被指是除了互聯(lián)網(wǎng)金融之外撈金指數(shù)最強勁的互聯(lián)網(wǎng)行業(yè)，從最近”王者榮耀”成都主創(chuàng)團(tuán)隊年終獎事件的引爆就能看出端倪，更不用說時下的流行語“吃雞”了；同時，隨著互聯(lián)網(wǎng)IP產(chǎn)業(yè)的不斷深化發(fā)展，體育、娛樂、文學(xué)等領(lǐng)域?qū)Π鏅?quán)和IP的重視程度越來越高，當(dāng)下的互聯(lián)網(wǎng)+時代，IP更是呈現(xiàn)了多元化的發(fā)展形勢。

以下是上述各個話題在這4W多篇文章中的占比情況，可以明顯的看出，虎嗅首頁上的文章對互聯(lián)網(wǎng)行業(yè)各大巨頭的行業(yè)動向報道較多，其次是不斷崛起的影視娛樂，除了無人駕駛方面的報道偏少以外，其他主題方面的文章的報道量差異不大，比較均衡。

再次是各主題的文章數(shù)量在時間上的變化情況：

上圖中，我們可以明顯的看出“巨頭戰(zhàn)略”這一話題的首頁發(fā)文量始終維持在一個較高的水平，其次是“人工智能”的話題，它在虎嗅網(wǎng)主頁2013年第一季度出現(xiàn)一個報道小高潮。值得注意的是，“互聯(lián)網(wǎng)金融”在2014年第3個季度的報道量較大，從中可以獲悉這個階段的互聯(lián)網(wǎng)金融正處于一個爆發(fā)的階段，這個時段互金行業(yè)的重大事件有：小米投資積木盒子進(jìn)軍互聯(lián)網(wǎng)金融（9.10）、京東發(fā)布消費金融戰(zhàn)略（9.24）、螞蟻金服集團(tuán)成立（10.16），以及整個2014年是“眾籌元年”，P2P步入洗牌季、以及央行密集令直指監(jiān)管互聯(lián)網(wǎng)金融，這些事件或政策都足以引發(fā)互聯(lián)網(wǎng)界人士的熱議，造成這一時段聲量的驟然升起。

4.3?情緒分析&LDA主題模型交叉分析

結(jié)合上述LDA主題模型分析的結(jié)果，筆者使用基于深度學(xué)習(xí)的情緒語義分析模型（該模型有6類情緒，即喜悅、憤怒、悲傷、驚奇、恐懼和中性），對這些文章的標(biāo)題進(jìn)行情緒分析，得出各個文章的情緒標(biāo)簽，處理結(jié)果如下表所示：

將主題和情緒維度進(jìn)行交叉分析，得出下圖：

從上圖中可以看出，各個主題下的標(biāo)題的情緒以中性為主，凸顯作者和官方的客觀和中立態(tài)度，但是在現(xiàn)今標(biāo)題黨橫行和全民重口味的時代，擬標(biāo)題上的過分中立也意味著平淡無奇，難以觸發(fā)讀者的閱讀行為，正所謂“有性格的品牌，有情緒的營銷”，能成功挑起讀者情緒的作者絕對是高手，所以，在上圖中除了中性情緒外，居于第二位的是憤怒，狂撕狂懟，點燃讀者的情緒；再次是悲傷，在現(xiàn)實生活中，傷感總能引起同情與共鳴。

4.4 ATM模型

在這個部分，筆者想了解“虎嗅網(wǎng)上各個作家的寫作主題，分析某些牛X作家喜歡寫哪方面的文章（比如“行業(yè)洞察”、“爆品營銷”、“新媒體運營”等），以及寫作主題類似的作者有哪些。

為此，筆者采用了ATM模型進(jìn)行分析，注意，這不是自動取款機的縮寫，而是author-topicmodel：

ATM模型（author-topic model）也是“概率主題模型”家族的一員，是LDA主題模型（Latent Dirichlet Allocation ）的拓展，它能對某個語料庫中作者的寫作主題進(jìn)行分析，找出某個作家的寫作主題傾向，以及找到具有同樣寫作傾向的作家，它是一種新穎的主題探索方式。

首先，筆者去除若干發(fā)布文章數(shù)為1的作者，再從文本中“析出”若干主題，因為文本數(shù)量有刪減，所以跟之前的主題劃分不太一致。根據(jù)各個主題下的主題詞特征，筆者將這10個主題歸納為：“行業(yè)新聞”、“智能手機”、“創(chuàng)業(yè)&投融資”、“互聯(lián)網(wǎng)金融”、“新媒體&營銷”、“影視娛樂”、“人工智能”、“社會化媒體”、“投融資&并購”和“電商零售”。

接下來，筆者將會對一些自己感興趣的作者的寫作主題及其相關(guān)作者進(jìn)行一定的分析。

首先是錘子科技的創(chuàng)始人羅永浩，筆者一直認(rèn)為他是一個奇人，之前看到他在虎嗅網(wǎng)上有署名文章，所以想看他在虎嗅網(wǎng)上寫了啥：

從老羅的寫作主題及其概率分布來看，他比較傾向于寫創(chuàng)業(yè)、融資、智能手機和新媒體營銷方面的文章，這個比較符合大眾認(rèn)知，因為善打情懷牌的老羅喜歡談創(chuàng)業(yè)、談自己對于手機的理解，而且由于自己鮮明的個性和犀利的語言，他常常在為自己的錘子品牌代言。

根據(jù)文檔ID，筆者找到了他發(fā)布的這幾篇文章：

單看標(biāo)題，ATM模型還是蠻聰明的，能從老羅的文章中學(xué)習(xí)到了他的寫作主題。

接下來是寫作主題與老羅相近的虎嗅網(wǎng)作家，他們的發(fā)布文章數(shù)大于3篇：

接下來是虎嗅自己的媒體，主頁上發(fā)文量破萬，所涉及的寫作主題集中在“行業(yè)新聞”、“智能手機”和“新媒體&營銷”：

與其寫作主題類似的作者除了一些個人自媒體人，還包括一些媒體，如環(huán)球網(wǎng)、財富中文網(wǎng)、彭博商業(yè)周刊等。從前面的分析中可以推測出，他們在上述3個話題上的發(fā)文量也比較大。

在這10,189篇文章里，筆者按文檔ID隨機抽取出其中的若干篇文章的標(biāo)題，粗略驗證下。然后，把這些標(biāo)題繪制成獨角獸形狀的詞云。

由上面的標(biāo)題及其關(guān)鍵詞云，預(yù)測的主題還是比較合理的。

再看看另外兩個筆者比較感興趣的自媒體—混沌大學(xué)和21世紀(jì)經(jīng)濟(jì)報道。

從上面2個圖可以看出，混沌大學(xué)關(guān)注的領(lǐng)域主要是“創(chuàng)業(yè)&投融資”、“新媒體&營銷”方面的話題，偏向于為創(chuàng)業(yè)者提供創(chuàng)業(yè)相關(guān)的技能；而21世紀(jì)經(jīng)濟(jì)報道則更青睞“投融資&并購”、“行業(yè)新聞”和“智能手機”方面的話題，這比較符合該媒體的報道風(fēng)格—分析國際形式、透視中國經(jīng)濟(jì)、觀察行業(yè)動態(tài)和引導(dǎo)良性發(fā)展，有效地反映世界經(jīng)濟(jì)格局及變化，跟蹤報道中國企業(yè)界的動態(tài)與發(fā)展。

4.5?詞匯分散圖

接下來，筆者想了解虎嗅網(wǎng)主頁這4W+文章中的某些詞匯在2012.05~2017.11之間的數(shù)量分布和他們的位置信息（the locationof a word in the text），這時可以利用Lexical dispersion plot（詞匯分散圖）進(jìn)行分析，它可以揭示某個詞匯在一段文本中的分布情況（Producea plot showing the distribution of the words through the text）。

筆者先將待分析的文本按時間順序進(jìn)行排列，分詞后再進(jìn)行Lexical DispersionPlot分析。因此，文本字?jǐn)?shù)的累積增長方向與時間正向推移的方向一致。圖中縱軸表示詞匯，橫軸是文本字?jǐn)?shù)，是累加的；藍(lán)色豎線表示該詞匯在文本中被提及一次，對應(yīng)橫軸能看到它所處的位置信息，空白則表示無提及。藍(lán)色豎線的密集程度及起位置代表了該詞匯在某一階段的提及頻次和所在年月。

從上面的關(guān)鍵詞和主題詞中，筆者挑揀出14個詞匯進(jìn)行分析，結(jié)果如下：

從上圖中可以看出，“智能手機”、“移動支付”、“O2O”和“云計算”這4個詞在近6年的熱度居高不下，提及頻次很高，在條柱上幾近飽和。相較之下，“互聯(lián)網(wǎng)教育”、“3D打印”、“在線直播”這些在虎嗅網(wǎng)上的報道量不大，從始至終只是零零星星的有些提及。

值得注意的是，“共享單車”在后期提及次數(shù)顯著增加，而且是爆發(fā)式的出現(xiàn)，這與共享單車出現(xiàn)比較吻合，關(guān)于共享單車方面的數(shù)據(jù)分析，請參看《【干貨】用大數(shù)據(jù)文本挖掘，來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢》。

4.6?詞向量/關(guān)聯(lián)詞分析—當(dāng)我們談?wù)揦X時我們在談?wù)撌裁?/strong>

基于深度神經(jīng)網(wǎng)絡(luò)的詞向量能從大量未標(biāo)注的普通文本數(shù)據(jù)中無監(jiān)督地學(xué)習(xí)出詞向量，這些詞向量包含了詞匯與詞匯之間的語義關(guān)系，正如現(xiàn)實世界中的“物以類聚，類以群分”一樣，詞匯可以由它們身邊的詞匯來定義（Words can be defined by the company they?keep）。

從原理上講，基于詞嵌入的Word2vec是指把一個維數(shù)為所有詞的數(shù)量的高維空間嵌入到一個維數(shù)低得多的連續(xù)向量空間中，每個單詞或詞組被映射為實數(shù)域上的向量。把每個單詞變成一個向量，目的還是為了方便計算，比如“求單詞A的同義詞”，就可以通過“求與單詞A在cos距離下最相似的向量”來做到。

接下來，通過Word2vec，筆者查找出自己感興趣的若干詞匯的關(guān)聯(lián)詞，從而在虎嗅網(wǎng)的這個獨特語境下去解讀它們。

由此，筆者依次對“百度”、“人工智能”、“褚時健”和“羅振宇”這幾個關(guān)鍵詞進(jìn)行關(guān)聯(lián)詞分析。

出來的都是與百度相關(guān)的詞匯，不是百度的產(chǎn)品、公司，就是百度的CEO和管理者，“搜索”二字變相的出現(xiàn)了很多次，它是百度起家的一大法寶。

與“AI”相關(guān)的詞匯也是很好的解釋了人工智能的細(xì)分領(lǐng)域和目前比較火的幾個應(yīng)用場景。

與褚時健一樣，相關(guān)詞中前幾位名人（牛根生、胡雪巖、魯冠球、王永慶和宗慶后）也是名噪一時的商業(yè)精英，“老爺子”、“褚老”、“橙王”是外界對其的尊稱。有意思的是，褚老其人其事大有“東隅已逝，桑榆非晚”、“待從頭，收拾舊山河”的豁達(dá)精神和樂觀主義！

再就是資深媒體人和傳播專家羅振宇了，“知識變現(xiàn)”的踐行者，他的許多見解都能顛覆群眾原有的觀念。與羅胖相類似的人還有申音（互聯(lián)網(wǎng)真人秀《怪杰》的創(chuàng)始人和策劃人，羅振宇的創(chuàng)業(yè)伙伴）、吳曉波（吳曉波頻道和社群的創(chuàng)始人）、Papi醬（知名搞笑網(wǎng)紅）、馬東（現(xiàn)“奇葩說”主持人）、李翔（得到APP上《李翔商業(yè)內(nèi)參》的推出者）、姬十三（果殼網(wǎng)創(chuàng)始人）、李笑來（財務(wù)自由知名布道者）、吳伯凡（詞沒切全，《21世紀(jì)商業(yè)評論》發(fā)行人，作品有《冬吳相對論》和《伯凡日知錄》）…

4.7?對互聯(lián)網(wǎng)百強公司旗下品牌的詞聚類與詞分類

2016年互聯(lián)網(wǎng)百強企業(yè)的互聯(lián)網(wǎng)業(yè)務(wù)收入總規(guī)模達(dá)到1.07萬億元，首次突破萬億大關(guān)，同比增長46.8%，帶動信息消費增長8.73%。數(shù)據(jù)顯示，互聯(lián)網(wǎng)領(lǐng)域龍頭企業(yè)效應(yīng)越來越明顯，對他們的研究分析能幫助我們更好的了解中國互聯(lián)網(wǎng)行業(yè)的發(fā)展概況和未來方向。

筆者在這里選取2016年入選的互聯(lián)網(wǎng)百強企業(yè)，名單如下：

對于上述百強互聯(lián)網(wǎng)公司的旗下品牌名錄，筆者利用上面訓(xùn)練出來的詞向量模型，用來進(jìn)行下面的詞聚類和詞分類。

4.7.1?詞聚類

運用基于Word2Vec（詞向量）的K-Means聚類，充分考慮了詞匯之間的語義關(guān)系，將余弦夾角值較小的詞匯聚集在一起，形成簇群。下圖是高維詞向量壓縮到2維空間的可視化呈現(xiàn)：

筆者將詞向量模型中所包含的所有詞匯劃定為300個類別，看看這種設(shè)定下的品牌聚類效果如何。分析結(jié)果和規(guī)整如下所示：

從上述結(jié)果來看，有些分類是比較好理解的，如途風(fēng)（網(wǎng)）和驢媽媽旅游網(wǎng)，都是做旅游的，人人貸、陸金所和拍拍貸是搞互金的，這些詞匯是在“行業(yè)的語境”里出現(xiàn)的次數(shù)較多，基于同義關(guān)系聚類在一起，同屬一個行業(yè)。但其中大多數(shù)的聚類不是按行業(yè)來的，而是其他的語境中出現(xiàn)，且看下面這兩段話：

第一波人口紅利是從2011年開始的，這波人口是原來核心的三億重度互聯(lián)網(wǎng)網(wǎng)民，或者簡單地說，是那個年代去買小米手機和iPhone的這波用戶，當(dāng)然也包括三星。他們是一二線城市里邊比較偏年輕的這些人口。所以你看包括我們自己投資的美圖、知乎、今日頭條、小米都是跟著這波人口起來的。

第二波人口是從2013年、2014年開始發(fā)生的，這波人口是什么？這波人口實際上是移動互聯(lián)網(wǎng)往三四線城市下沉造成的人口紅利，是二三四線城市里面比較年輕的人口。大家簡單想一下買OPPO、ViVO手機的人。這波紅利帶來了包括快手、映客等一系列的興起，包括微博的二次崛起。

上面加粗加黑的品牌雖然不同屬一個行業(yè)，但都出現(xiàn)在“移動互聯(lián)網(wǎng)的人口紅利”的語境中，所以單從這個語境來說，它們可以聚為一類。

所以，上述的聚類可能是由于各類詞匯出現(xiàn)在不同的語境中，深挖的話，或許能發(fā)現(xiàn)到若干有趣的線索。篇幅所限，這個就留給有好奇心的讀者來完成吧。

4.7.2?詞分類

在這里，筆者還是利用之前訓(xùn)練得出的詞向量，通過基于CNN（?ConvolutionalNeural Networks，卷積神經(jīng)網(wǎng)絡(luò)）做文本分類，用來預(yù)測。CNN的具體原理太過復(fù)雜，筆者在這里不做贅述，感興趣的小伙伴可以查閱后面的參考資料。

由于文本分類（Text Classification）跟上面的文本聚類（Text Cluster）在機器學(xué)習(xí)中分屬不同的任務(wù)，前者是有監(jiān)督的學(xué)習(xí)（所有訓(xùn)練數(shù)據(jù)都有標(biāo)簽），后者是無監(jiān)督的學(xué)習(xí)（數(shù)據(jù)沒有標(biāo)簽），因而，筆者在正式的文本分類任務(wù)開始前，先用有標(biāo)注的語料訓(xùn)練模型，再來預(yù)測后續(xù)的未知的文本。

在這里，筆者根據(jù)互聯(lián)網(wǎng)企業(yè)所屬細(xì)分領(lǐng)域的不同，劃分為17個類別，每個類別只有很少的標(biāo)注語料參與訓(xùn)練，也就是幾個詞罷了。對，你沒看錯，借助外部語義信息（之前訓(xùn)練好的詞向量模型，已經(jīng)包含有大量的語義信息），你只需要少許的標(biāo)注語料就可以完成分類模型的訓(xùn)練。

接著，筆者用之前未出現(xiàn)在訓(xùn)練語料中的詞來檢驗效果，出來的結(jié)果是類別標(biāo)簽及其對應(yīng)的概率，概率值大的類別是品牌最有可能從屬的細(xì)分領(lǐng)域。結(jié)果如下圖所示：

上述的結(jié)果都符合大家的基本認(rèn)知，小規(guī)模測試下，準(zhǔn)確率尚可，最后來一個難度大一點的，國外一家筆者從未知曉的互聯(lián)網(wǎng)公司：

通過Google，筆者了解到Waze是以色列一家做眾包導(dǎo)航地圖的科技公司。前一段時間火了一把，被Google 10億美元收購了。其產(chǎn)品雖然沒有Google地圖那樣強大的衛(wèi)星圖片作支撐，但是可以向用戶社區(qū)提供有關(guān)交通狀況、交通事故以及測速區(qū)等實時信息（地圖彈幕即視感）。“眾包”和“實時信息”分別對應(yīng)“共享經(jīng)濟(jì)”和“即時通訊”，比較符合預(yù)測標(biāo)簽所表征的內(nèi)涵，能在一定程度上預(yù)測出該企業(yè)的業(yè)務(wù)屬性。

4.8?互聯(lián)網(wǎng)百強公司的共現(xiàn)分析

上面所做的關(guān)于互聯(lián)網(wǎng)百強公司的聚類分析和分類分析，看起來是“黑匣子”，其內(nèi)在的機理，我們不太容易理解。接下來，筆者將基于“圖論”來做品牌共現(xiàn)分析，從網(wǎng)絡(luò)的角度來分析百強企業(yè)品牌之間的關(guān)聯(lián)關(guān)系。

提取出上述百強企業(yè)品牌的相互共現(xiàn)關(guān)系，形成如下的社交網(wǎng)絡(luò)圖：

上圖中，每個節(jié)點代表一個人物，線條粗細(xì)代表品牌與品牌之間的強弱鏈接關(guān)系，相同顏色的節(jié)點表示它們（在某種條件下）同屬于一類。節(jié)點及字體的大小表示品牌在網(wǎng)絡(luò)中的影響力大小，也就是“Betweenness Centrality（中介核心性），”學(xué)術(shù)的說法是“兩個非鄰接的成員間的相互作用依賴于網(wǎng)絡(luò)中的其他成員，特別是位于兩成員之間路徑上的那些成員，他們對這兩個非鄰接成員的相互作用具有某種控制和制約作用”。說人話就是，更大的影響力就意味著該品牌鏈接了更多的合作機會和資源，以及涉足更多的互聯(lián)網(wǎng)領(lǐng)域。

先看里面影響力TOP10，依次是騰訊、微信、百度、QQ、阿里巴巴、淘寶、京東、小米、網(wǎng)易和新浪微博，“騰訊系”在10強里占據(jù)了3個席位，實力強大，可見一斑。

再看由顏色區(qū)分出的6個簇群：

淡藍(lán)系：騰訊、微信、百度、QQ、網(wǎng)易、搜狐…

洋紅系：阿里巴巴、淘寶、京東、新浪微博、天貓…

深綠系：小米、多看、MIUI、天翼閱讀…

淺綠系：樂居、房天下

明黃系：人人貸、拍拍貸

黃橙系：汽車之家、易車網(wǎng)、易湃

上述的分類，大部分是好理解的，? 淺綠系（樂居、房天下）是做房產(chǎn)的，明黃系（人人貸、拍拍貸）是搞互聯(lián)網(wǎng)P2P金融的，而黃橙系（汽車之家、易車網(wǎng)、易湃）是互聯(lián)網(wǎng)汽車領(lǐng)域的品牌。

值得注意的是，深綠系的小米、多看、MIUI、天翼閱讀，以小米為中心MIUI是小米的產(chǎn)品，多看（閱讀）已經(jīng)被小米收購，天翼閱讀一度是小米捆綁的閱讀軟件，然而，蝸牛游戲就跟前幾個不同，有一篇文章的標(biāo)題是這樣的：“蝸牛發(fā)布移動戰(zhàn)略，石海：不做小米第二”，它是小米在移動游戲領(lǐng)域的對手…

此外，淡藍(lán)系（騰訊、微信、百度、QQ、網(wǎng)易、搜狐等）和洋紅系（阿里巴巴、淘寶、京東、新浪微博、天貓等）這兩個簇群中，品牌與品牌之間的關(guān)系就比較復(fù)雜了，子母公司、兄弟品牌、跨界合作、競對關(guān)系、跨界競爭、融資及兼并，上述情況，在這兩類簇群中或可兼而有之。

結(jié)語

在本文的文本挖掘部分，其實已經(jīng)涉及到人工智能/AI這塊的實際應(yīng)用—關(guān)鍵詞提取、LDA主題模型、ATM模型屬于機器學(xué)習(xí)，情緒分析、詞向量、詞聚類和詞分類涉及到深度學(xué)習(xí)方面的知識，這些都是AI 在數(shù)據(jù)分析中的真實應(yīng)用場景。

此外，本文是探索性質(zhì)的數(shù)據(jù)分析干貨文，不是數(shù)據(jù)分析報告，重在啟迪思路，授人以漁，得出具體的結(jié)論不是本文的目的，對結(jié)果的分析分散在各個部分，“文末結(jié)論控”不喜勿噴。

參考資料：

1.數(shù)據(jù)來源：虎嗅網(wǎng)主頁，2012.05-2017.11

2.蘇格蘭折耳喵，《數(shù)據(jù)運營|數(shù)據(jù)分析中，文本分析遠(yuǎn)比數(shù)值型分析重要！（上）》

3.蘇格蘭折耳喵，《在運營中，為什么文本分析遠(yuǎn)比數(shù)值型分析重要？一個實際案例，五點分析（下）》

4.蘇格蘭折耳喵，《干貨｜如何利用Social Listening從社會化媒體中“提煉”有價值的信息？》

5.蘇格蘭折耳喵，《干貨｜作為一個合格的“增長黑客”，你還得重視外部數(shù)據(jù)的分析！》

6.蘇格蘭折耳喵，《以《大秦帝國之崛起》為例，來談大數(shù)據(jù)輿情分析和文本挖掘》

7.蘇格蘭折耳喵，《【干貨】用大數(shù)據(jù)文本挖掘，來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢》

8.Word2vec百科詞條

9.“工信部發(fā)2016年中國互聯(lián)網(wǎng)企業(yè)100強名單”

10.宗成慶，《自然語言理解：（06）詞法分析與詞性標(biāo)注》，中科院

11.UnderstandingConvolutional Neural Networks for NLP

12.Yoon Kim,Convolutional Neural Networks for Sentence Classification

13. Hoffman, Blei, Bach. 2010. Online learning for LatentDirichlet Allocation

14.TomasMikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of WordRepresentations in Vector Space. In Proceedings of Workshop at ICLR, 2013.

15.TomasMikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. DistributedRepresentations of Words and Phrases and their Compositionality. In Proceedingsof NIPS, 2013.

#專欄作家

蘇格蘭折耳喵，微信公眾號：Social Listening與文本挖掘，人人都是產(chǎn)品經(jīng)理專欄作家，數(shù)據(jù)PM一只，擅長數(shù)據(jù)分析和可視化表達(dá)，熱衷于用數(shù)據(jù)發(fā)現(xiàn)洞察，指導(dǎo)實踐。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自 unsplash，基于 CC0 協(xié)議

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

2年初級數(shù)據(jù)流程分析文本挖掘

海報

蘇格蘭折耳喵

社交媒體數(shù)據(jù)挖掘愛好者

29篇作品 1309959總閱讀量

為你推薦

賽博美女，在小紅書批量誕生

03-154269 瀏覽

玩轉(zhuǎn)用戶旅程地圖

06-0219830 瀏覽

好玩的B端組件丨上傳組件

04-1811920 瀏覽

千里之堤毀于蟻穴——被視頻平臺忽視的字幕

12-13217 瀏覽

AIGC在視頻生成領(lǐng)域究竟有多大的想象空間？

11-293139 瀏覽

評論

評論請登錄

悠哈

請問，公眾號是什么啊

最近來自湖北回復(fù)

蘇格蘭折耳喵作者回復(fù)悠哈

Social Listening與文本挖掘

最近回復(fù)

??????q??

老哥有g(shù)ithub地址嗎我去star一下

最近來自北京回復(fù)

土匪長弓

跪拜啊

最近來自廣東回復(fù)

KZ

字字珠璣，真是受益匪淺

最近來自上海回復(fù)

咸魚想翻身

你好，數(shù)據(jù)源怎么獲得，??我也想學(xué)數(shù)據(jù)分析，就是不會爬蟲??

最近回復(fù)

蘇格蘭折耳喵作者回復(fù)咸魚想翻身

爬蟲爬取，不懂代碼，用火車頭或八爪魚等工具

最近回復(fù)

你Y能重來

請問你的地圖是用什么畫的？

最近來自浙江回復(fù)

蘇格蘭折耳喵作者回復(fù)你Y能重來

地圖匯

最近回復(fù)

克里斯

公眾號是什么？

最近回復(fù)

小妖是只貓

我一個內(nèi)容運營的人，看完后，居然想去學(xué)編程了

最近回復(fù)

蘇格蘭折耳喵作者回復(fù)小妖是只貓

歡迎加入Python的學(xué)習(xí)隊列

最近回復(fù)

alubaaaa

第一次完完整整看了數(shù)據(jù)分析的過程。感覺是很有趣，數(shù)據(jù)分析不僅要懂原理懂工具使用，更是結(jié)合實際場景展開數(shù)據(jù)解讀。

最近回復(fù)

慶慶

文章非常有條理，讓我對數(shù)據(jù)分析又有了更深的了解，感覺數(shù)據(jù)分析最好需要一定的算法基礎(chǔ)，不知道作者是不是算法背景畢業(yè)的？

最近來自安徽回復(fù)

蘇格蘭折耳喵作者回復(fù)慶慶

不是，高中文科，本碩服裝專業(yè)，這些都是可以學(xué)習(xí)到的，只要你對數(shù)據(jù)科學(xué)有足夠的興趣

最近來自上海回復(fù)

慶慶回復(fù)蘇格蘭折耳喵

更佩服了！

最近來自安徽回復(fù)

leelx 回復(fù)蘇格蘭折耳喵

紡織專業(yè)的飄過，敢問作者公眾號是什么，關(guān)注下

最近來自北京回復(fù)

蘇格蘭折耳喵作者回復(fù)leelx

運營喵是怎樣煉成的

最近來自上海回復(fù)

找自己

請教您的公眾號是什么

最近回復(fù)

找自己回復(fù)找自己

找到了

最近回復(fù)

畢竟是搖滾

大牛，數(shù)據(jù)源能共享一下么。 ? 我也想練練手

最近來自北京回復(fù)

蘇格蘭折耳喵作者回復(fù)畢竟是搖滾

有，公眾號有

最近來自上海回復(fù)

Jay杰

必須贊賞一下，這么6的文章

最近回復(fù)

蘇格蘭折耳喵作者回復(fù)Jay杰

夠豪爽，祝你好運??

最近回復(fù)

Alohamizu

請問，那十個主題名字，如“巨頭戰(zhàn)略”“電商

最近回復(fù)

蘇格蘭折耳喵作者回復(fù)Alohamizu

話沒說完吧？

最近回復(fù)

Charles

真是大神，忍不住膜拜！

最近來自北京回復(fù)

蘇格蘭折耳喵作者回復(fù)Charles

??

最近來自上海回復(fù)

lovepoeny

求原始編碼可能嗎？

最近來自北京回復(fù)

西太平洋上的風(fēng)

大神的數(shù)據(jù)挖掘簡直太棒了~

最近來自北京回復(fù)

ytw

6了

最近來自廣東回復(fù)

為你推薦

新茶飲下沉，爭奪縣城青年

11-21543 瀏覽

我們?yōu)槭裁匆獦?biāo)準(zhǔn)定價？如何定價？

09-168643 瀏覽

尋找正確的問題，而不是正確的解決方案

04-146800 瀏覽

快訊
查看更多

熱門文章

文章導(dǎo)航

1. 分析背景

2. 數(shù)據(jù)采集和文本預(yù)處理

3. 描述性分析

4. 文本挖掘

結(jié)語

關(guān)于
人人都是產(chǎn)品經(jīng)理（woshipm.com）是以產(chǎn)品經(jīng)理、運營為核心的學(xué)習(xí)、交流、分享平臺，集媒體、培訓(xùn)、社群為一體，全方位服務(wù)產(chǎn)品人和運營人，成立12年舉辦在線講座1000+期，線下分享會500+場，產(chǎn)品經(jīng)理大會、運營大會50+場，覆蓋北上廣深杭成都等20個城市，在行業(yè)有較高的影響力和知名度。平臺聚集了眾多BAT美團(tuán)京東滴滴360小米網(wǎng)易等知名互聯(lián)網(wǎng)公司產(chǎn)品總監(jiān)和運營總監(jiān)，他們在這里與你一起成長。

合作伙伴

鏈接

隱私政策

投稿須知

意見反饋

幫助中心

公眾號

視頻號

友情鏈接

PM265

產(chǎn)品經(jīng)理導(dǎo)航

起點課堂

豬八戒網(wǎng)

人才熱線

伙伴云表格

網(wǎng)易易盾

個推

友盟+

糧倉

創(chuàng)業(yè)邦

每日報告

鳥哥筆記

慕課網(wǎng)

旗下品牌: 起點課堂 | 運營派 | 糧倉企微管家
?2010-2024 - 人人都是產(chǎn)品經(jīng)理 - 粵ICP備14037330號-粵公網(wǎng)安備 44030502001309號
 廣播電視節(jié)目制作經(jīng)營許可證（粵）字第03109號增值電信業(yè)務(wù)經(jīng)營許可證粵B2-20190788 版權(quán)所有 ? 深圳聚力創(chuàng)想信息科技有限公司

以虎嗅網(wǎng)4W+文章的文本挖掘為例，展現(xiàn)數(shù)據(jù)分析的一整套流程