萬字干貨|10款數(shù)據(jù)分析“工具”,助你成為新媒體運營領(lǐng)域的“增長黑客”

39 評論 138614 瀏覽 640 收藏 72 分鐘

不必羨慕什么“技術(shù)流”,即使是不懂技術(shù)和復(fù)雜數(shù)學(xué)知識的你,照樣能成為新媒體運營領(lǐng)域的“增長黑客”!因為創(chuàng)造性思維和強烈的好奇心會給你帶來好運的,等到工具、技能和思維三者融會貫通的時候,就會像獨孤求敗那樣——“不滯於物,飛花草木皆可傷人,草木竹石均可為劍”!

1?成為新媒體運營領(lǐng)域的“增長黑客”

1.1 一般意義上的“增長黑客”

“增長黑客(Growth Hacker)”,這個近幾年來風(fēng)靡中國互聯(lián)網(wǎng)界的新興概念,濫觴于美國硅谷互聯(lián)網(wǎng)創(chuàng)業(yè)圈,國內(nèi)則是由范冰首先引進,他的著作《增長黑客:創(chuàng)業(yè)公司的用戶與收入增長秘籍》使這個概念深入人心。

結(jié)合國內(nèi)外關(guān)于“增長黑客”的表述:“增長黑客”是以數(shù)據(jù)驅(qū)動營銷、以市場指導(dǎo)產(chǎn)品,通過技術(shù)手段貫徹增長目標(biāo)的一群人。這就需要他們既了解技術(shù),寫得了代碼;又能了解人性,能捕捉用戶的心理感受和真實需求;最重要的是,他們經(jīng)常能突發(fā)奇想,發(fā)揮創(chuàng)意,大開腦洞,以小的投入獲取較多的用戶和收入。

一言以蔽之,“增長黑客”就是具備各種跨界技能,可以利用各種巧妙的手段以極小的成本獲取大量用戶,實現(xiàn)最終的收入增加。

“增長黑客”讓那些資金不夠充裕、前期資源緊缺和初始用戶匱乏的初創(chuàng)型互聯(lián)網(wǎng)初創(chuàng)團隊看到了“四兩撥千斤”的希望,小投入也能辦大事。

“增長黑客”的一個很好的理念,但它在不同的互聯(lián)網(wǎng)領(lǐng)域有著不同的形態(tài),具體的實現(xiàn)手法也不盡相同,比如在新媒體運營領(lǐng)域。

1.2 新媒體運營領(lǐng)域的“增長黑客”

新媒體是跟隨互聯(lián)網(wǎng)興起的一個新興媒體形態(tài),它已經(jīng)在很大程度上顛覆了以往的紙質(zhì)刊物、廣播及電視等傳統(tǒng)媒體,重要性不言而喻。關(guān)于它的概念和內(nèi)涵,筆者不想多說,網(wǎng)上有很多的詳細(xì)介紹。在這里,筆者認(rèn)為新媒體最為重要的一個特征是:

人人都可以是信息的生產(chǎn)者,人人也都是信息的傳播者。

這意味著無論是誰,包含企業(yè)、機構(gòu)還有個人,都有機會成為這個新媒體時代的成功者。咪蒙、一條、十點讀書即是例證。

然而,隨著中國的互聯(lián)網(wǎng)時代進入下半場,新媒體行業(yè)也從野蠻生長的時代進入“弱肉強食”的“叢林時代”,常規(guī)的新媒體運營手段(包括內(nèi)容、展現(xiàn)形式及推廣方法等)已經(jīng)很難從用戶增長緩慢和收入增長停滯的困境中突圍出來。

寫到這里,筆者不由得想到兒時看過的動漫——《數(shù)碼寶貝》中的主人公身邊各類可愛的小精靈,在遇到危急情況時會進化,由“成長期”進化到“成熟期”、“完全體”,甚至是“究極體?”,適應(yīng)性和攻擊力呈現(xiàn)指數(shù)級的提升,足以在危如累卵的逆境中打敗強大的敵人,反敗為勝。

與此類似,廣大新媒體從業(yè)者們在這個時候,也需要“進化”,完成華麗的轉(zhuǎn)身—采用精細(xì)運作、量化分析的科學(xué)手段去進行新媒體運營,以適應(yīng)這個足以革新我們思維觀念的“大數(shù)據(jù)時代”,而“增長黑客”正是一劑良方。

從前面對“增長黑客”的介紹中,我們可以發(fā)現(xiàn):

“增長黑客”是一個多面手的角色,需要掌握跨領(lǐng)域的知識,其中最為核心的技能即是懂技術(shù)、精通數(shù)據(jù)分析。

然而,技術(shù)(碼代碼、編寫程序等)和數(shù)據(jù)分析(數(shù)學(xué)知識和BI軟件操作等)對于很多做新媒體運營的小伙伴來說,是十分棘手的兩樣事物:很多從事新媒體運營的小伙伴是正兒八經(jīng)的文科生畢業(yè),文案和排版方面,他們可以說是“長袖善舞”,但技術(shù)和數(shù)據(jù)分析卻可能是他們的“夢魘”。

鑒于這種情形,筆者提倡“人+數(shù)據(jù)驅(qū)動思維+工具”理念—以人為本,從運營者自身的知識結(jié)構(gòu)出發(fā),以數(shù)據(jù)/量化思維作為方法論,用工具輔助運營,從而做到揚長避短,把自己的精力集中在重要的事情上。

筆者在這里特意收羅了10幾款跟數(shù)據(jù)分析有關(guān)的工具,以彌補技術(shù)小白和數(shù)據(jù)分析小白技能上的匱乏,而且掌握它們不需要很懂技術(shù),連數(shù)據(jù)分析這項技能也能借助它們輕松get。

值得注意的是,本文所要介紹的工具,并不是狹義上的“工具”,如可視化工具、文本分析工具和事件熱度趨勢/預(yù)測分析操作類工具,還包括數(shù)據(jù)新聞這種廣義上的新型信息載體;更為重要的是,他們分別代表著四種思維/觀念—重視非結(jié)構(gòu)性數(shù)據(jù)、科學(xué)化預(yù)測、信息的具象化呈現(xiàn)以及用數(shù)據(jù)講故事,這些“工具”都是為達到、完成或促進新媒體運營效果的有利武器。

如下圖所示,以下是本文的行文結(jié)構(gòu):

新媒體運營的“增長黑客”數(shù)據(jù)分析工具箱

2?文本分析工具

文本分析的重要性筆者已經(jīng)在之前的兩篇文章中有過論述,詳見《數(shù)據(jù)運營|數(shù)據(jù)分析中,文本分析遠(yuǎn)比數(shù)值型分析重要?。ㄉ希?/a>》《在運營中,為什么文本分析遠(yuǎn)比數(shù)值型分析重要?一個實際案例,五點分析(下)》,故本文不做贅述,直奔工具應(yīng)用的主題。

2.1 NLPIR在線系統(tǒng)

NLPIR,即“自然語言處理與信息檢索共享平臺”的英文縮寫, 打開該網(wǎng)址,即可進入主界面—“語義分析系統(tǒng)”,顧名思義,它是一個在線的中文語義分析工具,因為非商業(yè)化,它對處理文本的篇幅大小也有限制,只能處理3000字,可以給熱衷于文本分析的小伙伴過過癮,但要想用于商業(yè)目的,那只能呵呵了。

NLPIR在線系統(tǒng)的首頁

上圖中間部分的11個圓圈即是該系統(tǒng)的所有功能,但其中有幾個只是掛出來,目前還未實現(xiàn),結(jié)合新媒體運營工作中的實際需求,筆者只介紹其中幾個比較有實用價值的功能模塊。

以下以《<你的名字。>破5.5億元日媒:和中國聯(lián)手有錢賺》這則新聞作為測試文本,筆者來給大家介紹下這個系統(tǒng)中的實體抽取、詞頻統(tǒng)計、文本分類、情感分析和關(guān)鍵詞提取這5個比較有實用價值、且準(zhǔn)確度較高的功能模塊。

2.1.1?實體抽取

NLPIR中的“實體抽取”功能模塊可以智能識別出測試文本中出現(xiàn)的人名、地名、機構(gòu)名、媒體、作者及文章的主題關(guān)鍵詞,這是對語言規(guī)律的深入理解和科學(xué)預(yù)測,它提煉出的詞語不需要在詞典庫中事先存在。

實體抽取的圖表效果支持力導(dǎo)向圖和弦圖這兩種形式,如下圖所示:

測試文本“實體抽取”的2種呈現(xiàn)形式

上圖中,從“文本”這個一級類目中,分別分出了“關(guān)鍵詞”、“地名”、“時間”這3個二級類目,由此能大致判斷出測試文本中包含的事件元素,如主題是關(guān)于電影的,涉及國家(地區(qū))間的對比,還有縱向時間維度的分析,一些關(guān)鍵詞能讓我們把握文章中重要的詞句。

2.1.2?詞頻統(tǒng)計

在一份給定的文件里,詞頻(term frequency,TF)指的是某一個給定的詞語在該文件中出現(xiàn)的次數(shù)。

在文本分析中,詞頻統(tǒng)計是較為常規(guī)的、同時也是最為重要的一個環(huán)節(jié),它用來評估一個詞對于一個文件或者一個語料庫中的一個領(lǐng)域文件集的重要程度。

NLPIR只展示了名詞、動詞、形容詞這3種開放詞類,這個3個此類也是一段文本中最為重要的3個部分:

  • 名詞介紹文章中的各個主體,能讓我們知道文本描述的對象是誰;
  • 動詞表征各個主體的動作和行為,能讓我們知道關(guān)于主體發(fā)生了什么;
  • 而形容詞則能描述主體及動作/行為的特征,能讓我們知道主體及其行為/動作的性質(zhì)、狀態(tài)、特征或?qū)傩浴?/li>

NLPIR的詞頻統(tǒng)計只展示了上述詞類的Top 10結(jié)果,以折線圖和條形圖的形式進行展現(xiàn)??戳讼旅娴脑~頻分類展示,聯(lián)想文章標(biāo)題,我們很自然地了解到《你的名字?!愤@部電影在市場上獲得了不錯的業(yè)績,引發(fā)中日媒體的廣泛報道和關(guān)注……

測試文本的詞頻統(tǒng)計呈現(xiàn)

2.1.3?文本分類

NLPIR“文本分類”部分目前所展示的類別只是新聞的政治、經(jīng)濟、軍事、交通等,分類有待擴展和細(xì)化。

NLPIR深度文本分類,可以用于新聞分類、簡歷分類、郵件分類、辦公文檔分類、區(qū)域分類等諸多方面。此外,它還可以實現(xiàn)文本過濾,能夠從大量文本中快速識別和過濾出符合特殊要求的信息,可應(yīng)用于品牌報道監(jiān)測、垃圾信息屏蔽、敏感信息審查等領(lǐng)域。

然而,從測試的效果來看,這個功能模塊的分析效果還不甚準(zhǔn)確,它沒有“娛樂”這一分類,但起碼也應(yīng)該劃入“其他”這一類中。

測試文本的文本分類結(jié)果呈現(xiàn)

2.1.4?情感分析

NLPIR的“情感分析”提供兩種模式:全文的情感判別(左圖)與指定對象的情感判別(右圖)。大類上,“情感分析”部分分為“正(面)”和“負(fù)(面)”這兩大類情感,這是內(nèi)層;在外層,兩個大類又分為“樂”、“好”、“怒”、“哀”、“懼”、“惡”、“驚”7中細(xì)分的情感,這也就是大家常說的“七情六欲”中的“七情”。

目前正負(fù)面的判斷已經(jīng)較為成熟,但鑒于漢語的博大精深和詞匯語義(用法)的波譎多變(反諷、貶義褒用、語境變化等),細(xì)分情緒的判斷準(zhǔn)確度還值得觀察。

測試文本的情感分析結(jié)果呈現(xiàn)

觀察上面測試文本的情感分析效果圖,再比對原始文本,這個判斷大致上是準(zhǔn)確的,但負(fù)面的部分應(yīng)該比實際的占比小,尤其是“惡”這個部分—筆者并未發(fā)現(xiàn)有出現(xiàn)厭惡的語句和詞匯。

2.1.5?關(guān)鍵詞提取

這里的關(guān)鍵詞提取和前面的詞頻統(tǒng)計有一定的聯(lián)系,但二者的算法(實現(xiàn)方法)是不一樣的:

  • 詞頻統(tǒng)計:詞頻統(tǒng)計的是一個詞在文章中出現(xiàn)次數(shù),出現(xiàn)的次數(shù)越多一般越重要;
  • 關(guān)鍵詞提取:關(guān)鍵詞提取則是依據(jù)TF-IDF(term frequency–inverse document frequency,詞頻–反轉(zhuǎn)文件頻率),用以評估一個詞對于文本內(nèi)容的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。比如,“如果”、“也”、“你們”等詞匯,他們出現(xiàn)的頻次很高,但它們的重要性就很弱。

測試文本的關(guān)鍵詞分析

從上圖中測試文本的“關(guān)鍵詞提取”中可以發(fā)現(xiàn),這部分和“詞頻統(tǒng)計”部分既有重合也有明顯區(qū)分,原因就在于上述的算法不同。

值得注意的是,不論是“詞頻統(tǒng)計”還是“關(guān)鍵詞提取”,已經(jīng)設(shè)置了“停用詞(stopwords)”,在進行上述分析的時候,自動的將那些無明顯意義的副詞、冠詞、代詞給去掉了。

2.2?文本挖掘工具

文本挖掘工具(注冊登錄后才可見)是一款免費的在線的文本分析工具,它可以對輸入的文本進行高頻詞分析、關(guān)鍵詞提取、情感判斷、實體識別、詞性分析、關(guān)鍵詞云和關(guān)聯(lián)詞的可視化展示。同時,本工具還為用戶提供了多種自定義設(shè)置,包括分詞模式選擇(3種)、自定義停用詞、自定義詞典、自定義中心關(guān)鍵詞(針對關(guān)聯(lián)詞圖)、數(shù)據(jù)導(dǎo)出(詞匯、詞頻、權(quán)重)。

更重要的是,高頻詞/關(guān)鍵詞分析的結(jié)果可以導(dǎo)出成excel格式的文件,便于后期分析和處理。

文本挖掘工具的產(chǎn)品主界面

值得注意的是,文本挖掘工具導(dǎo)出的excel文檔有三列:提取出的詞語、詞頻數(shù)、詞匯權(quán)重。后兩個指標(biāo),筆者已經(jīng)在前面做過論述,不明白的小伙伴可以“倒帶”回去看看。

2.3 Tone Analyzer

Tone Analyzer是一款由IBM推出的、基于云計算的人工智能文本分析工具,能對電子郵件、博客文章以及手機短信進行感情色彩分析,以確定它的措辭是否如實地表達了你的憤怒、肯定、高興或者悲傷等感情。

ToneAnalyzer的主界面

這一用來幫助評估和改善文字溝通當(dāng)中的語氣的服務(wù)目前尚處實驗?zāi)J?,如獲成功,或?qū)⒏淖兾磥砩碳液蜖I銷人員同消費者、客戶的溝通方式。

更重要的是,它可以應(yīng)用到新媒體運營者的內(nèi)容校正中來:

  • 用來查驗文章內(nèi)容的調(diào)性和風(fēng)格,了解自己的文字給人留下的印象如何,以使公眾號的內(nèi)容運營不偏離預(yù)設(shè)的定位。
  • 幫助品牌運營者和內(nèi)容輸出分析,撰寫何種風(fēng)格的文案才可以引起受眾的共鳴。

Tone?Analyzer的評價系統(tǒng)包含三個維度,各個維度及其簡介如下圖所示:

Tone?Analyzer的評價系統(tǒng)的三個維度

以下是Tone?Analyzer的使用案例,大家可以從下面的幾個模塊中獲得對文字信息的洞察,這部分筆者不做詳述,感興趣的小伙伴可以去官網(wǎng)查閱文檔。

輸入文本信息和選擇分析類別

文本信息3個維度的分析結(jié)果

文本信息段落的逐行分析(附有標(biāo)記)

3?熱點捕獲/趨勢預(yù)測工具

3.1?搜索指數(shù)型

這里的搜索指數(shù)型趨勢工具指的是,它們的數(shù)據(jù)絕大部分是基于用戶的搜索行為,即用戶搜索關(guān)鍵詞而形成的數(shù)據(jù)及其展示,有一定的預(yù)測價值,但缺點是并不能發(fā)現(xiàn)搜索行為背后的原因。

3.1.1 百度指數(shù)

關(guān)于百度指數(shù)的介紹,筆者僅貼出部分官方關(guān)于功能的介紹:

百度指數(shù)是以百度海量網(wǎng)民行為數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)分享平臺,它能夠告訴用戶:某個關(guān)鍵詞在百度的搜索規(guī)模有多大,一段時間內(nèi)的漲跌態(tài)勢以及相關(guān)的新聞輿論變化,關(guān)注這些詞的網(wǎng)民是什么樣的,分布在哪里,同時還搜了哪些相關(guān)的詞,幫助用戶優(yōu)化數(shù)字營銷活動方案。

關(guān)于詳細(xì)它的使用方法及一些關(guān)鍵原理,筆者在《尋找創(chuàng)業(yè)方向時,如何零成本用大數(shù)據(jù)獲悉市場行情?》有詳述,感興趣的小伙伴可以去看看。

3.1.2 微指數(shù)

(微博)微指數(shù)是新浪微博官方的數(shù)據(jù)分析工具,基于新浪微博的全量數(shù)據(jù),通過關(guān)鍵詞的熱議度,以及行業(yè)/類別的平均影響力,來反映微博輿情或賬號的發(fā)展走勢。微指數(shù)分為熱詞趨勢、實時趨勢、(信息分布)地域解讀和(用戶)屬性分析4個板塊。

“熱詞趨勢”部分與百度指數(shù)的趨勢很相像,但它有一個更為有價值的地方—點擊趨勢曲線中的各個節(jié)點,會顯示出關(guān)注度排名靠前的3條微博,可以做到“知其然并知其所以然”。

微指數(shù)的熱詞趨勢圖

“實時趨勢”則反映該熱詞近一天的走勢情況?!暗赜蚪庾x”即該熱詞相關(guān)微博信息的地域分布情況。

最后一個功能板塊是“屬性分析”,這部分能獲悉關(guān)注該熱詞及其相關(guān)事件的人群畫像,有性別、年齡、興趣標(biāo)簽比例和星座標(biāo)簽比例這4個人群屬性。

微指數(shù)的“(人群)屬性分析”

這部分可以參看筆者之前寫的兩篇文章《當(dāng)數(shù)據(jù)分析遭遇心理動力學(xué):用戶深層次的情感需求浮出水面》、《如何用數(shù)據(jù)分析,搞定新媒體運營的定位和內(nèi)容初始化?》,不失時機將其運用到實際的運營工作中來,而不是僅僅停留在人群屬性的分析描述層面。

3.2?現(xiàn)網(wǎng)信息型

現(xiàn)網(wǎng)信息型,顧名思義,就是該類工具的主要數(shù)據(jù)來源于現(xiàn)有的網(wǎng)絡(luò)信息(主要是基于社會化媒體的文本數(shù)據(jù),詳情請參看《干貨|如何利用Social Listening從社會化媒體中“提煉”有價值的信息?》),而不是基于網(wǎng)民的搜索行為,因而通過它可以找到熱詞或事件關(guān)注(量)發(fā)生波動起伏的原因。

一般來說,這類數(shù)據(jù)產(chǎn)品的典型應(yīng)用領(lǐng)域在輿情領(lǐng)域(包括輿情監(jiān)測、品牌口碑監(jiān)測等),比如新浪微熱點(以前叫“新浪微輿情”)。

新浪微熱點的主頁

新浪微熱點—“熱度指數(shù)”產(chǎn)品頁面

以下是新浪微熱點這個大數(shù)據(jù)分析工具的介紹,我們能從中看到現(xiàn)網(wǎng)信息型熱度分析工具的基本原理:

“利用獨有的分布式網(wǎng)絡(luò)技術(shù),對互聯(lián)網(wǎng)上輿情、口碑相關(guān)數(shù)據(jù)源進行完整采集,同時根據(jù)用戶預(yù)定的監(jiān)控關(guān)鍵詞對全網(wǎng)數(shù)據(jù)進行補充獲取?!靶吕宋狳c”可以在很短時間內(nèi)收錄到國內(nèi)外重要網(wǎng)站、論壇、微博、微信公眾號、貼吧、博客等互聯(lián)網(wǎng)開放平臺的相關(guān)信息,通過中文智能分詞、自然語言處理、正負(fù)面研判等大數(shù)據(jù)處理技術(shù)對收錄到的信息進行處理并分析…

可以看出,現(xiàn)網(wǎng)信息型熱度分析工具的數(shù)據(jù)基于現(xiàn)有的全網(wǎng)信息搜集,并經(jīng)過自然語言處理等技術(shù)對文本信息進行信息的“去粗取精”,從而有效把握事件的重要方面和影響因素?!?/p>

下面,筆者來詳述新浪微熱點的幾個很有價值的功能模塊—分別是熱度指數(shù)(包括熱度指數(shù)、傳播分析、口碑分析和微博情緒)、信息監(jiān)測、事件分析(包括全網(wǎng)事件分析和微博事件分析)和微博傳播效果分析,它們可以很好的運用到新媒體領(lǐng)域,可以在熱點追蹤、內(nèi)容規(guī)劃、受眾畫像分析和營銷分析方面給予運營者們以有益的指導(dǎo)。

3.2.1 (事件)熱度趨勢分析

在地震救援中,有一個概念叫做“黃金72小時”,它是地質(zhì)災(zāi)害發(fā)生后的黃金救援期。因為救援界認(rèn)為,災(zāi)難發(fā)生之后存在一個“黃金72小時”,在此時間段內(nèi),災(zāi)民的存活率極高。

同樣,在新媒體內(nèi)容運營追蹤熱點事件方面,也存在類似的定律,能在最短的時間內(nèi),把握觀眾所關(guān)注事件的發(fā)展走向和輿論傾向,因勢利導(dǎo),就能成功的“借勢“。

新浪微熱點的(事件)熱度趨勢分析中有一個能反映事件關(guān)注度的一個數(shù)據(jù)指標(biāo)—熱度指數(shù),它的全稱是“網(wǎng)絡(luò)傳播熱度指數(shù)”,是指在從新聞媒體、微博、微信、客戶端、網(wǎng)站、論壇等互聯(lián)網(wǎng)平臺采集海量信息的基礎(chǔ)上,提取與指定事件、人物、品牌、地域等相關(guān)的信息,并對所提取的信息進行標(biāo)準(zhǔn)化計算后得出的指數(shù)。

熱度指數(shù)能客觀反映事件、人物、品牌、地域等在互聯(lián)網(wǎng)上的受關(guān)注程度。熱度指數(shù)所呈現(xiàn)的數(shù)值為0~100,數(shù)值越大,表明其網(wǎng)絡(luò)受關(guān)注度越高。

下面舉個栗子,拿前不久廣受關(guān)注的“淘寶被列入惡名市場名單”事件作為分析對象,來看看(事件)熱度趨勢分析的各個功能模塊是如何運用到新媒體運營領(lǐng)域的。

(1)熱度概況和熱度趨勢

從下圖的“指數(shù)概況”部分,我們可以看到,淘寶被列入惡名市場名單”在72小時內(nèi)(當(dāng)然也可以選擇24小時這個時間區(qū)間)的熱度同比增長達到62315%,表明互聯(lián)網(wǎng)上關(guān)于該事件的媒體報道和公眾評論信息出現(xiàn)驟增的情形,且指數(shù)有將近6%的增幅,幅度不大結(jié)合這兩個指標(biāo)可以看出,在近72小時內(nèi)該事件很火熱,且熱度呈現(xiàn)穩(wěn)步增長的趨勢。值得注意的是,這里的“同比”和“指數(shù)變化”是針對此次查詢的72小時區(qū)間和上一個72小時區(qū)間的數(shù)值進行對比的。

在“熱度指數(shù)”部分,由時間軸和熱度指數(shù)軸構(gòu)成的折線圖反映了近72小時內(nèi)該事件熱度指數(shù)的變化趨勢,這個折線圖的分析意義重大,能起到預(yù)測事件未來熱度走勢的神奇作用。

在分析熱度指數(shù)的折線圖的時候,要注意從微觀層面和宏觀層面上的把握。在微觀層面上,要特別注意折線圖中比較重要的節(jié)點,特別是峰值節(jié)點,它代表其對應(yīng)的時間點它的關(guān)注度較高,要注意發(fā)現(xiàn)事件爆發(fā)的時間規(guī)律;在宏觀層面上,要看整條折線的整體走向,是整體呈現(xiàn)上升趨勢,還是呈現(xiàn)關(guān)注度的下降趨勢,當(dāng)情況屬于前者時,新媒體運營者們則可以繼續(xù)跟進事件的發(fā)展,接著“借勢”和“跟風(fēng)”。

熱度概況及熱度趨勢分析

既然知道了事件熱度的峰值節(jié)點出現(xiàn)在哪個時間點,這時我們肯定想了解這些時間區(qū)間內(nèi)事件關(guān)注度驟然上升的原因。還好,緊接著“熱度趨勢”,下方給出了其中最突出的峰值節(jié)點出現(xiàn)的原因,以重點信息聚類的方式呈現(xiàn)。

在下圖中,呈現(xiàn)的是12月23日 08時,達到24的峰值時的重點信息聚類。給出了這些熱門文章的標(biāo)題和來源站點,點擊標(biāo)題即可進入相應(yīng)的網(wǎng)頁,查看源信息。

最突出峰值節(jié)點的信息聚類

這里需要強調(diào)的是,對于最突出峰值節(jié)點的重點聚類信息的解讀十分重要,因為這些文章閱讀數(shù)高,抑或是轉(zhuǎn)發(fā)量高,在某種程度上表明了公眾對于這些信息的認(rèn)可度高,能代表一定的公眾輿論傾向。作為新媒體內(nèi)容運營者來說,引導(dǎo)公眾看法難度太大,不是人人都能做成意見領(lǐng)袖的,能因勢利導(dǎo)的輸出順應(yīng)公眾觀點的文章可能是上策。

(2)事件熱度信息的關(guān)鍵詞詞云

這里的關(guān)鍵詞云是由互聯(lián)網(wǎng)上各個渠道的海量信息進行中文智能分詞和自然語言處理所得,濃縮了關(guān)于該事件的TOP60關(guān)鍵詞,能在一定程度上反映出事件的各個要素。

詞語的大小代表該詞出現(xiàn)次數(shù)的多寡,也表明了該關(guān)鍵詞對于事件的重要程度如何。在進行內(nèi)容組織的時候,可以考慮這些詞頻數(shù)高詞匯所代表的方面,如在“淘寶列入惡名市場名單”這一事件中,除了“惡名市場”、“名單”這些出現(xiàn)在標(biāo)題之中的關(guān)鍵詞外,還有“加大力度”、“納入保護”、“知識產(chǎn)權(quán)”等關(guān)鍵詞表征的方面作為文章內(nèi)容的著力方向。

“淘寶列入惡名市場名單”事件的關(guān)鍵詞詞云

(3)事件熱度信息的來源類型

“信息來源”部分中,反映出了事件信息的來源占比情況,比重較大的部分是需要運營者重點關(guān)注的渠道。

“淘寶列入惡名市場名單”事件的信息在“微博”這一信息渠道中的比重最多,其次是“網(wǎng)站”、“新聞”、“客戶端”等,具體的數(shù)據(jù)為:微博(49.32%)、網(wǎng)站(27.73%)和新聞(10.13%)。

“淘寶列入惡名市場名單”事件的信息來源分布

針對微博信息量為何占據(jù)如此大的比重這個問題,筆者找到了今年11月份新浪微博官方的一份關(guān)于微博UGC的數(shù)據(jù),頓時了然:

新浪微博2016年P(guān)GC、UGC幾項關(guān)鍵數(shù)據(jù)

新浪微輿情是新浪微博旗下的子公司,擁有全量的微博數(shù)據(jù),再加上騰訊微博的信息量,因而其他渠道的信息量比例會被微博這一渠道巨大的UGC內(nèi)容給稀釋掉,形成絕對信息量不小但看起來很少的效果。

(4)事件熱度信息的地域分布

(事件熱度信息的)地域分布反映的是搜索事件的全網(wǎng)信息量在全國各地的分布情況,這一點與百度指數(shù)的原理一樣。

?“淘寶列入惡名市場名單”事件的信息地域分布

從地域分布來看,與“淘寶列入惡名市場名單”相關(guān)的信息主要來源北京(3561條)、廣東(1139條)和上海(834條)。

(5)事件熱度信息的關(guān)聯(lián)詞分析

事件熱度信息的關(guān)聯(lián)詞分析,它是通過系統(tǒng)自動運算找出事件核心詞、并計算出與核心詞同時出現(xiàn)關(guān)聯(lián)度最高的高頻詞,也就是與核心詞共現(xiàn)頻率最高的詞匯(關(guān)于“共現(xiàn)”的原理介紹,請看《如何用數(shù)據(jù)分析,搞定新媒體運營的定位和內(nèi)容初始化?》的第三部分)。

下圖中的關(guān)聯(lián)詞和弦圖和對應(yīng)關(guān)聯(lián)度數(shù)據(jù)表反映了該事件的關(guān)聯(lián)詞情況。

“淘寶列入惡名市場名單”的關(guān)聯(lián)詞分析

通過對與“淘寶列入惡名市場名單”相關(guān)的信息進行分析后可看出,與其核心詞惡名市場關(guān)聯(lián)度最高的詞語為淘寶(100.00%)、美國(99.06%)和名單(97.19%)。

3.2.2 信息監(jiān)測

一直以來,(輿情、口碑)信息監(jiān)測的主要用戶是政府、大型企業(yè)和專業(yè)新聞媒體,因而對應(yīng)的主要功能是傾聽民意、監(jiān)測自身(也包含競品)的品牌口碑及動向,以及追蹤熱點事件走向等。此外,它可以通過各種預(yù)警設(shè)置,對關(guān)注事件產(chǎn)生的新信息進行第一時間的提醒,以免運營者遺漏重要信息。

實際上,信息監(jiān)測可以用于新媒體領(lǐng)域,結(jié)合上面提及的“事件熱度趨勢分析”板塊媒體運營者可以有效的追蹤熱點事件的最新進展,做到不遺漏。

關(guān)于它的應(yīng)用場景,筆者目前想到2個:

(1)文章轉(zhuǎn)載的全網(wǎng)監(jiān)測

筆者平時會寫一些關(guān)于互聯(lián)網(wǎng)數(shù)據(jù)運營的文章,發(fā)布在一些知名的互聯(lián)網(wǎng)平臺上,因此想監(jiān)測一下全網(wǎng)轉(zhuǎn)載的情況,比如筆者最近的一篇文章—《如何用數(shù)據(jù)分析,搞定新媒體運營的定位和內(nèi)容初始化?》,在“信息監(jiān)測”的監(jiān)測方案部分設(shè)置好關(guān)鍵詞后,選好時間區(qū)間,轉(zhuǎn)載的詳細(xì)情況和數(shù)據(jù)統(tǒng)計圖表盡收眼底:

文章轉(zhuǎn)載的信息列表

筆者文章轉(zhuǎn)載的各種信息反饋圖表

(2)關(guān)注信息的全網(wǎng)監(jiān)測

運營者可以在監(jiān)測方案中按設(shè)置指定的關(guān)鍵詞,定向的追蹤自己感興趣的事件、公司、品牌和資料等信息。

以下是筆者在學(xué)習(xí)數(shù)據(jù)分析時,進行的關(guān)鍵詞設(shè)置,多個零散詞匯通過邏輯運算符形成了一個監(jiān)測方案,可以無遺漏的監(jiān)測自己關(guān)注的信息,同時系統(tǒng)也會過濾掉垃圾信息。

通過各種邏輯運算符設(shè)置信息監(jiān)測的關(guān)鍵詞

設(shè)置好監(jiān)測方案以后,點擊“圖表分析”,即可看到如下圖所示的各種監(jiān)測方案信息量的可視化分析圖表。

監(jiān)測方案的信息量的走勢圖

監(jiān)測方案的信息量分布情況

監(jiān)測方案信息量的地理分布情況

再選擇“信息列表”項,通過時間、地域、渠道等選項的篩選,我們就可以得到自己想要的信息了。此外點擊其中一條信息,即可進入信息詳情頁,如下圖所示:

監(jiān)測方案的信息列表

監(jiān)測信息的詳情頁

另外,這個功能模塊還有幾個功能,如下圖所示,篇幅有限,感興趣的小伙伴自己去試試吧。

“信息監(jiān)測”板塊的預(yù)警通知、監(jiān)測日報和定向監(jiān)測功能

3.2.3 事件分析

事件分析(包括全網(wǎng)事件分析和微博事件分析)指的是,輸入近期事件或話題關(guān)鍵詞,系統(tǒng)自動進行深度挖掘和多重分析,記錄事件從始發(fā)到發(fā)酵期、發(fā)展期、高漲期、回落期和反饋期等階段的演變過程,分析輿情傳播路徑、關(guān)鍵詞云、發(fā)展態(tài)勢、受眾反饋和網(wǎng)民觀點分析。

關(guān)于它的實際使用攻略,筆者之前寫過一篇文章詳細(xì)介紹過,請參看《【數(shù)據(jù)運營】傅園慧和她的“洪荒之力”的大數(shù)據(jù)輿情分析》。

3.2.4 微博傳播效果分析

微博傳播效果分析通過分析單條轉(zhuǎn)發(fā)量/評論量大的的微博,從而得到關(guān)于該微博的傳播路徑、意見領(lǐng)袖、用戶畫像和微博營銷傳播質(zhì)量等。

下面貼一張大圖讓大家感受下:

微博傳播分析的部分功能

限于篇幅,這部分筆者就不詳述了,請參看筆者之前的文章:《【數(shù)據(jù)運營】揭開微博轉(zhuǎn)發(fā)傳播的規(guī)律:以“人民日報”發(fā)布的G20文藝晚會微博為例》。

4?可視化工具

俗話說:“文不如字,字不如表,表不如圖”,一張富含信息量且外觀時尚靚麗的圖會給文章增色不少,會激起讀者的好奇心,不知不覺的去圖片中探尋信息,從而讓文章的可讀性大大增加,易于傳播。比如這張圖:

人人都是產(chǎn)品經(jīng)理網(wǎng)站“產(chǎn)品經(jīng)理”專欄所有文章標(biāo)題制成的詞云

怎么樣,想學(xué)了吧?

不急,這個其實很簡單,下面我將以實例詳細(xì)的講解制作這張圖的步驟,即使是小白的你,也能做出這樣精美的個性化詞云。

4.1 個性化詞云制作

我把個性化詞云的制作分為3個步驟,即抓取數(shù)據(jù)、文本處理和詞云制作,詳見下圖:

個性化詞云制作的步驟

4.1.1 數(shù)據(jù)獲取

從本質(zhì)上講,詞云是反映某一特定主題的文本數(shù)據(jù)的可視化展示。比如,上面的喬幫主詞云反映的就是“產(chǎn)品經(jīng)理”專欄中較為熱門的關(guān)鍵詞/話題。所以,要制作一個“出彩”且有內(nèi)涵的自定義詞云,文本不能無規(guī)律,需要定向的獲取特定的文本數(shù)據(jù)。

筆者對前不久上映且廣受好評的電影《你的名字》頗感興趣,想分析一下這部電影的市場反響如何,先聊聊這部分?jǐn)?shù)據(jù)的獲取。

對于影片的分析,首選當(dāng)然是豆瓣電影,因為它是國內(nèi)最具有參考價值的影評網(wǎng)站,從文本中能得到很有價值和有意思的信息。但考慮到文本數(shù)據(jù)獲取的難易程度,我先介紹如下3個數(shù)據(jù)獲取的方法:

(1)自己編寫爬蟲,想要什么數(shù)據(jù)就去抓取什么數(shù)據(jù),既經(jīng)濟(用爬蟲工具會花錢),又會增加“自己動手,豐衣足食”的成就感,最重要的是,略施小計就可以躲避豆瓣的封IP機制。

用python編寫爬蟲抓取豆瓣影評數(shù)據(jù)

(2)利用集搜客這樣的爬蟲軟件去抓取數(shù)據(jù),不需要編程技術(shù),且簡單易上手,但是可能會被封IP。

(3)采用新浪微熱點這個大數(shù)據(jù)工具,因而不用豆瓣的評論數(shù)據(jù),在互聯(lián)網(wǎng)上進行全網(wǎng)信息搜集,獲取有關(guān)該影片的熱門文章標(biāo)題作為分析的文本數(shù)據(jù),這種方法是三種中最為輕松簡單的,而且獲取的是全網(wǎng)的數(shù)據(jù),大家可以有選擇性的選取自己需要的數(shù)據(jù),操作步驟如下圖所示:

用新浪微熱點獲取文本數(shù)據(jù)

因為最近學(xué)了點Python,故筆者選擇了用Python編寫爬蟲來獲取了豆瓣這部分的影評數(shù)據(jù)。

獲取《你的名字》豆瓣電影的影評數(shù)據(jù)

抓取后的數(shù)據(jù)整理成如下表格:

保存到本地的《你的名字》豆瓣影評數(shù)據(jù)

接下來,就是把文本數(shù)據(jù)單獨取下來咯,全選“評論內(nèi)容”這一列,把這些影評數(shù)據(jù)占到記事本上,作為接下來分析的“原材料”。

4.1.2 文本處理

一般情況下,文本數(shù)據(jù)的處理包含很多方面,如分詞、詞性標(biāo)注、詞頻統(tǒng)計、文本分類、情感分析、關(guān)鍵詞提取、文本摘要提取等。

在這里,制作詞云只需要考慮關(guān)鍵詞提取和詞頻統(tǒng)計這兩個板塊。

這里使用到的工具是前面提及的熱詞分析工具—文本挖掘工具。將《你的名字》豆瓣評論的文本部分粘貼到上圖中左邊的文本框中,再點擊右上方的“分析出圖”,系統(tǒng)顯示完成后,右邊的預(yù)設(shè)詞云會發(fā)生變化,此時點擊“導(dǎo)出”,即可得到詞頻的csv文件。

經(jīng)文本挖掘工具處理得到的詞頻csv文件

這里去除詞語和詞頻兩列,用來進行接下來的詞云制作。

4.1.3 詞云制作

處理詞云,筆者用到的工具是Tagul(現(xiàn)更名為Wordart)。下面是它的的主頁展示:

Tagul主頁

(1)詞頻載入格式

在頁面左上方的“Words”處,就是加載詞語及詞頻的地方,這里需要注意一下它的載入格式。,如下表所示:

Tagul的詞頻載入格式

上表中,前兩列的“Word”和“Weight”就是剛才經(jīng)處理過的詞語和詞頻,Color一欄則是設(shè)置該詞語的顏色,這是個性化詞云中很關(guān)鍵的一個要素,會直接影響到最終的詞云呈現(xiàn)效果。這里可以不填寫,那么在形成詞云時默認(rèn)隨機生成顏色。如果要形成定制化的顏色,則需要設(shè)置采用16進制的色值,以下是常用的顏色代碼表,即色值表。

常用的16進制色值表

與此類似,字體也可選可不選,需要定制的話,則可進行相應(yīng)的設(shè)置。

“Repeat”這項則表示該詞語是否會重復(fù)出現(xiàn),填寫“0”,則表示不重復(fù),填寫“1”,則表示重復(fù)。為了保持信息的精準(zhǔn)度,減少噪聲,一般選擇填寫“0”。

后面的URL鏈接就忽略了,因為有前面的設(shè)置,就不需要進行網(wǎng)頁鏈接。

按照上述操作,出詞語和詞頻兩例外,筆者還定制了“Color”和“Repeat”這兩項,結(jié)果顯示如下。

最終的詞語載入表

全選該表格的文字部分,將其粘貼到“Import Words”的文本框里,進行保存。

(2)載入中文字體

因為Tagul是老外做的一個在線詞云制作網(wǎng)站,所以Tagul不支持中文,這需要我們載入能支持中文顯示的字體,如下圖所示,筆者載入的是“You Yuan(幼圓)”字體。

載入中文字體

(3)處理背景圖片

加載了字體,可以說這是個性化詞云制作的核心部分,詞云最終效果的美與不美就在此一舉。

值得注意的是,在載入圖片之前的圖片選取步驟時,需要選擇背景和主題對比比較明顯的圖片。從接下來的圖片預(yù)處理過程中,你會發(fā)現(xiàn)這一點的重要性。

詞云自定義圖片的初始狀態(tài)

筆者選取的是《你的名字》最為標(biāo)志性的一張海報,看起來很有感覺:既有男女主角的形象,也交代了他們所處的生活環(huán)境,中間則是影片中重要的提條線索—彗星。這張圖初始狀態(tài)看似雜亂,不好處理,但仔細(xì)觀察,可以發(fā)現(xiàn)主體(男女主角)和背景(天空、城市和彗星)之間的對比度和色相差異還是很明顯的。在Tagul的“Custom Shape”的設(shè)置中可以進一步處理背景和主體之間的對比度問題。

在“Shapes”處載入圖片后,點擊上載成功后圖片的右下角“齒輪”,打開圖片預(yù)處理。其中,“Threshold”處理景深,可以拉開/縮小背景和主體之間的差異;“Edges”則是處理主體輪廓的銳度,可以調(diào)節(jié)圖片的清晰程度模糊程度。這里的要點是—淡化背景,清晰主體輪廓。

淡化背景,強化主體輪廓

好了,完成上面繁瑣的步驟之后,現(xiàn)在是見證奇跡的時刻了,點擊右上方大大的黑體字“Visualize”,待進度條加載完畢后,即可得到如下的最終效果圖:

最終的詞云效果圖

4.2?網(wǎng)絡(luò)可視化利器— Gephi

Gephi是一款開源免費跨平臺基于JVM的復(fù)雜網(wǎng)絡(luò)分析軟件, 其主要用于各種網(wǎng)絡(luò)和復(fù)雜系統(tǒng),動態(tài)和分層圖的交互可視化與探測開源工具,下載地址為https://gephi.org/。網(wǎng)上目前比較權(quán)威的Gephi教程是在Udemy上的Ooof liu講解的《Gephi中文教程》,地址為https://www.udemy.com/gephi/,看完這個部分仍有饒有興趣的小伙伴可以去學(xué)習(xí)下。

下面是由Gephi制作的各種網(wǎng)絡(luò)圖,這些圖不僅包含了豐富的信息量,而且極富美感,在吸引眼球的同時還給予我們有意義的信息。

各種由Gephi制成的網(wǎng)絡(luò)圖

Gephi是一款信息數(shù)據(jù)可視化利器,它的一般應(yīng)用場景如下:

  • 探索性數(shù)據(jù)分析
  • 鏈接分析
  • 語義網(wǎng)絡(luò)分析
  • 社交網(wǎng)絡(luò)分析
  • 生物網(wǎng)絡(luò)分析

以下簡單介紹下它的使用方法。

在操作下面步驟之前,先去Gephi官網(wǎng)上下載最新版的0.9.1 version,這是免費的,且支持中文,還有豐富的插件下載,這簡直是數(shù)據(jù)可視化愛好者的福音!

值得注意的是,這款軟件是用Java編寫的,所以需要安裝Java環(huán)境,這個有點磨人。演與演員的關(guān)系作為分析對象,來詳細(xì)解讀如何制作一個“秀外慧中”的社交網(wǎng)絡(luò)可視化圖譜。

4.2.1 制作源數(shù)據(jù)

Gephi的源數(shù)據(jù)可以在excel中完成。在excel中,僅輸入2列即可,表頭嚴(yán)格按照Gephi的格式來制作,第一列為“Source”,第二列為”Target”。下面以豆瓣上評分6以下的國內(nèi)電影的導(dǎo)演(選取的是張藝謀、陳凱歌、馮小剛等大家耳熟能詳?shù)膶?dǎo)演,演員隨之確定)和演員關(guān)系表為例,做成如下格式:

在Excel上編輯Gephi的源數(shù)據(jù)

做好源數(shù)據(jù)之后,記得保存為CSV格式,Gephi僅能讀取這種格式的數(shù)據(jù)。

4.2.2 導(dǎo)入數(shù)據(jù)

在導(dǎo)入數(shù)據(jù)時,分別在“分隔符”、“如表格”、“格式”這三個選項下選擇“逗號”、“邊表格”、“GBK”。接下來點擊“下一步”,完成數(shù)據(jù)的導(dǎo)入。

在Gephi中導(dǎo)入csv數(shù)據(jù)

4.2.3 調(diào)整網(wǎng)絡(luò)布局

剛打開“圖”,也就是網(wǎng)絡(luò)圖的圖形界面時,這幾百個節(jié)點“蝸居”成一團,有點盤古開天辟地前“渾沌如雞子”的感覺,但這個模樣離我們心中的審美還有很長一段距離呢。

初始狀態(tài)的網(wǎng)絡(luò)圖

不過,不用著急,下面幾個簡單的步驟就能讓它“脫胎換骨”,完成華麗的變身。

在左上方的“布局”欄目中,選擇其中的任一算法,并可以在下方的操作界面修改默認(rèn)算法參數(shù),也可使用默認(rèn)的參數(shù)。單擊圖中運行按鈕,布局算法生效。

選擇“布局”中的算法

選擇不同的“布局”算法,網(wǎng)絡(luò)圖的形態(tài)就會有相應(yīng)的變化,以下是其中最為典型的集中算法及其拓?fù)鋱D。

各種“布局”算法的網(wǎng)絡(luò)圖拓?fù)湫螒B(tài)

在這里,筆者選取由“Frunchterman Reingold”算法確定的呈蒲公英花朵狀的結(jié)構(gòu)作為初始形態(tài)。

網(wǎng)絡(luò)布局做好后,我們完成了這個網(wǎng)絡(luò)圖的“骨架”搭建,下一步則需要對它的外表進行修飾,包括節(jié)點、邊和背景等部分的美化。

4.2.4 美化

在這里,我們可以對網(wǎng)絡(luò)圖進行“美容”,給它著上靚麗的顏色和合適的背景作為襯托。

如下圖所示,我們可以在“外觀”一欄對節(jié)點和邊進行著色,然后在下方選擇合適的背景,要注意節(jié)點、邊和背景之間的色差和對比。

給節(jié)點、邊和背景選擇合適的顏色

還需要注意一點,沿著“外觀”>“節(jié)點”>”數(shù)值設(shè)定”這一路徑,讓節(jié)點根據(jù)連接數(shù)的多少而顯示相應(yīng)的大小,使該網(wǎng)絡(luò)圖更有層次感;同理,可以對邊進行類似的設(shè)定,則兩個聯(lián)系緊密的節(jié)點間的邊將變得更寬。

經(jīng)過調(diào)整后,可以得到如下的網(wǎng)絡(luò)圖。

顏色調(diào)整后的效果圖

4.2.5 顯示標(biāo)簽

經(jīng)過上述幾個操作步驟之后,網(wǎng)絡(luò)圖還需要加入最為重要的一項內(nèi)容—標(biāo)簽,也就是前面提及的導(dǎo)演及演員的姓名,反映在節(jié)點上,由此完成他們之間的社交網(wǎng)絡(luò)圖的基本繪制。

沿著“窗口”>“預(yù)覽設(shè)置”的路徑,打開“預(yù)覽設(shè)置”,界面顯示如下。其中,需要在“節(jié)點標(biāo)簽”這部分完成字體的選擇,把默認(rèn)的西文字體變?yōu)橹形淖煮w。除此之外,此處還可以進行邊框、字體大小、顏色、透明度等的設(shè)置。

在“預(yù)覽設(shè)置”中設(shè)置中文字體

完成上述選項后,還需要在軟件界面的下方,點擊一下左下角那個大大的“T”,則節(jié)點標(biāo)簽就會顯現(xiàn),旁邊也有些字體調(diào)節(jié)鈕,大家可以摸索下。

在“布局”中,選擇“標(biāo)簽調(diào)整”算法,得到下圖:

最終效果圖

圖中各個節(jié)點的字體隨節(jié)點的重要性(由度、連入度或連出度確定)而呈現(xiàn)出不同之大小。所以,大家先看文字,了解其中最為突出的一些演員和導(dǎo)演,其次在看他們之間的關(guān)系。

筆者比較懶,這個網(wǎng)絡(luò)圖其實還可以進行更深入的優(yōu)化的,有興趣的小伙伴可以嘗試著做得更絢麗一些。

4.3?數(shù)據(jù)地圖

數(shù)據(jù)地圖,在Excel2013版及以上中都有三維地圖,還有一些BI工具中也集成了這個模塊,當(dāng)然也有專業(yè)的地圖GIS軟件,如地圖慧、智圖等。由于筆者之前寫過一篇關(guān)于數(shù)據(jù)地圖如何運用的文章,在此不再贅述,詳見《運營實操|15分鐘學(xué)會數(shù)據(jù)地圖分析》。

好了,上面的工具部分介紹完畢,該進入最終的收尾階段了。在某種意義上講,上面介紹的若干工具都是為接下來的“數(shù)據(jù)新聞”部分做準(zhǔn)備—它們是數(shù)據(jù)新聞中不可獲取的一部分,是數(shù)據(jù)新聞內(nèi)容呈現(xiàn)的重要“武器”。

5?數(shù)據(jù)新聞

在正式介紹數(shù)據(jù)新聞之前,筆者先聊聊,為什么需要數(shù)據(jù)新聞這種新型的新聞報道方式。

這里,筆者引用美國Northwestern University人文與社科學(xué)院的Prof BrianKeegan的一段話作為注解:

“在當(dāng)代,對于信息過載,以及恐懼、不確定性和懷疑等情緒的焦慮氛圍下,數(shù)據(jù)驅(qū)動的新聞可以起到關(guān)鍵性的作用。它們可以為關(guān)于政策、經(jīng)濟趨勢、社會變革的討論提供更為堅實的經(jīng)驗基礎(chǔ)?!?/p>

由此可見,信息過載、信息失真和現(xiàn)實世界廣泛存在的不確定性,導(dǎo)致人們不再相信沒有充分依據(jù)的信息,因而數(shù)據(jù)新聞這種更有說服力的信息載體呼之欲出。

5.1?數(shù)據(jù)新聞簡介

數(shù)據(jù)新聞,又叫數(shù)據(jù)驅(qū)動新聞。是指基于數(shù)據(jù)的抓取、挖掘、統(tǒng)計、分析和可視化呈現(xiàn)的新型新聞報道方式。它致力于從海量數(shù)據(jù)中發(fā)現(xiàn)新聞線索,或是抓取大量數(shù)據(jù)拓展既有新聞主題的廣度與深度,最后依靠可視化技術(shù)將經(jīng)過過濾后的數(shù)據(jù)進行融合,以形象化、藝術(shù)化的方式加以呈現(xiàn),致力于為讀者提供客觀、系統(tǒng)的報道以及良好的閱讀體驗。

目前,在大數(shù)據(jù)新聞制作上已經(jīng)積累了經(jīng)驗的國際媒體有《衛(wèi)報》《紐約時報》《華盛頓郵報》等。

以下是常見的數(shù)據(jù)新聞呈現(xiàn)方式:

不同類型的數(shù)據(jù)新聞

需要注意的是,數(shù)據(jù)新聞不一定非得要復(fù)雜的數(shù)據(jù)來呈現(xiàn)事實,表現(xiàn)出很高的逼格。在很多時候,簡單的描述性數(shù)據(jù)即可,就像下面的一個示例一樣,數(shù)據(jù)圖表的呈現(xiàn)讓讀者更加清晰、直觀的了解到西藏班在“量”和“質(zhì)”上的變遷,是“綠葉”,而內(nèi)地西藏班的整個發(fā)展歷程才是真正的“紅花”,是該報道的主線。

一張圖讀懂“內(nèi)地西藏班”

5.2?數(shù)據(jù)新聞的形式

一般情況下,數(shù)據(jù)新聞有如下3種形式:

5.2.1 新聞敘事

數(shù)據(jù)新聞體系下的新聞敘事講求客觀理性和邏輯性,從數(shù)據(jù)視角來看待事件與社會話題的方方面面,加之以形象具體的可視化圖表作為最后的呈現(xiàn)方式,使讀者對內(nèi)容的真實性和價值性產(chǎn)生信任。

以下是標(biāo)題為《23萬投票紀(jì)錄 回顧第五屆香港立法會》的數(shù)據(jù)新聞,下面選取了該文中一些具有代表性的數(shù)據(jù)圖示。

《23萬投票紀(jì)錄 回顧第五屆香港立法會》數(shù)據(jù)新聞中的一些圖示

從上圖中,在運用數(shù)據(jù)圖示的同時,借助數(shù)據(jù)分析的方法,從多維度總結(jié)了議員的投票行為。這種基于數(shù)據(jù)的的表達,比起單純的文字報道來,表現(xiàn)清晰,說服力強。

5.2.2 事實判斷

一個孤立的事件當(dāng)中的少量信息往往缺少關(guān)聯(lián)度,但如果從正確的角度觀察卻能發(fā)現(xiàn)極為重要的價值。透過數(shù)據(jù),內(nèi)容運營者可以發(fā)現(xiàn)僅憑知覺和傳聞難以感知的、隱藏在事件/新聞背后線索或假設(shè),抽絲剝繭、言之鑿鑿的把事件的來龍去脈和其中緣由講述透徹。

2016年7月25號在DT財經(jīng)上有一篇文章,文章標(biāo)題為《10萬條掛號大數(shù)據(jù)顯示:互聯(lián)網(wǎng)也救不了看病難》,文章中全篇引用了掛號網(wǎng)各個維度的一手10W數(shù)據(jù)。采用循序漸進的邏輯描述并分析看病難互聯(lián)網(wǎng)也很難解決這一難題。重要的是,作者將這些數(shù)據(jù)制作成可視化的數(shù)據(jù)圖表,從掛號網(wǎng)注冊醫(yī)院分布、支持網(wǎng)絡(luò)預(yù)約功能的醫(yī)院占比到預(yù)約掛號量超10萬的醫(yī)院和人數(shù)分布情況,最后到患者參與分享的比例及對候診時間的滿意度分析,將這些數(shù)據(jù)轉(zhuǎn)化為數(shù)據(jù)地圖、點狀圖、旋風(fēng)圖和趣味條形圖等可視化形式呈現(xiàn)出來。

《10萬條掛號大數(shù)據(jù)顯示:互聯(lián)網(wǎng)也救不了看病難》中的可視化圖表

從這個例子可以看出,數(shù)據(jù)新聞的報道方式能夠在宏觀上對某個事件看得更加清楚與全面,事件復(fù)雜的演進過程以及這個過程中的各個方面,都能描述得直觀且有趣,最重要的是,很能讓異見者服氣。

5.2.3 預(yù)測走向

通過數(shù)據(jù)的挖掘和分析,尋找出有價值的相關(guān)性,繼而增加對相關(guān)事件發(fā)展趨勢的預(yù)測性,新聞和數(shù)據(jù)相結(jié)合創(chuàng)作出精確和深度報道,成為大數(shù)據(jù)時代的新聞業(yè)務(wù)發(fā)展方向。

下圖是CNN在今年7月份關(guān)于美國總統(tǒng)大選預(yù)測的數(shù)據(jù)新聞,全篇大篇幅的介紹了當(dāng)下美國社交媒體上各州對候選人的支持情況、通過復(fù)雜算法得出的候選人各州獲勝的概率以及哪個州對于總統(tǒng)選舉具有決定性意義等。

CNN在2016年7月份關(guān)于美國總統(tǒng)大選的預(yù)測(局部)

5.3?如何成為一個優(yōu)秀的數(shù)據(jù)新聞內(nèi)容運營者

數(shù)據(jù)新聞學(xué)是一門交叉的學(xué)科,數(shù)據(jù)新聞的產(chǎn)生給傳統(tǒng)的新聞工作者提出了挑戰(zhàn),傳統(tǒng)的新聞創(chuàng)作理念和方式,要求新聞工作者具備采寫編評等基本專業(yè)技能,但目前已無法滿足大數(shù)據(jù)時代下數(shù)據(jù)新聞的創(chuàng)作。

要做好數(shù)據(jù)新聞,需要運營者著重提升以下4個方面的素養(yǎng)/能力:

5.3.1?敏銳的數(shù)據(jù)洞察力

數(shù)據(jù)新聞需要大量的數(shù)據(jù)、數(shù)據(jù)分析處理,不僅僅是要有技術(shù)水平,更需要一雙慧眼,分得清“真數(shù)據(jù)”和“假數(shù)據(jù)”,而且還要選擇重要的數(shù)據(jù)和信息進行內(nèi)容輸出,為受眾提供更細(xì)致、精確的事件分析,又快又準(zhǔn)的報道新聞,數(shù)據(jù)新聞的把關(guān)在數(shù)據(jù)時代更為重要。

媒體工作者需多渠道的收集數(shù)據(jù)。從公開的數(shù)據(jù)庫或者是政府部門、企業(yè)、機構(gòu)中獲取數(shù)據(jù),從這些海量信息中判斷和選擇有表現(xiàn)力的數(shù)據(jù)。當(dāng)媒體工作者獲取數(shù)據(jù)之后,便開始處理和整合數(shù)據(jù)。將與新聞報道無關(guān)的數(shù)據(jù)篩選、過濾后,剩下有用的數(shù)據(jù)進行整合匯編,形成新的報道內(nèi)容。

新聞工作者通過數(shù)據(jù)的挖掘和分析,尋找出有價值的相關(guān)性,繼而增加對相關(guān)事件發(fā)展趨勢的預(yù)測性,新聞和數(shù)據(jù)相結(jié)合創(chuàng)作出精確和深度報道,成為大數(shù)據(jù)時代的新聞業(yè)務(wù)發(fā)展方向。

5.3.2?熟練運用計算機能力

在如今信息爆炸的大數(shù)據(jù)時代,特別是社交網(wǎng)絡(luò)、電子商務(wù)與移動通信把人類社會帶入了一個以“PB”(1024TB)為單位的結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù)信息的新時代。大量的數(shù)據(jù)和信息擺在新聞工作者面前,傳統(tǒng)的計算機無法處理大量的、無規(guī)律的數(shù)據(jù),需要云計算進行分析、處理、統(tǒng)計。

因此,對于當(dāng)今的新聞工作者提出了更高的要求,必須熟練運用計算機,掌握一門編程語言。如果之前沒有編程基礎(chǔ),推薦python,它的設(shè)計哲學(xué)是“優(yōu)雅”、“明確”、“簡單”,掌握一些常用的爬蟲包、數(shù)據(jù)分析及可視化包以及自然語言處理包,就能很好的將大量的數(shù)據(jù)和信息進行友好的呈現(xiàn)。

5.3.3?分析處理數(shù)據(jù)能力

數(shù)據(jù)新聞與傳統(tǒng)的文字圖片新聞不一樣,數(shù)據(jù)新聞需要大量的數(shù)據(jù),新聞工作者可以通過數(shù)據(jù)發(fā)現(xiàn)問題、提出問題,也可以先有了問題之后,再去收集相關(guān)的數(shù)據(jù)。而擁有大量數(shù)據(jù)后,必須對其進行分析和處理,將不需要或不相關(guān)的數(shù)據(jù)過濾掉,剩下有價值的數(shù)據(jù)加以分析整合,供新聞編輯使用。德勤在美國華盛頓特區(qū)的研發(fā)創(chuàng)新團隊招聘數(shù)據(jù)記者,其中最重要的要求就是要具備分析數(shù)據(jù)的能力,由此可見,數(shù)據(jù)新聞記者必須具備較強的數(shù)據(jù)分析和處理的能力,才能勝任此工作。

5.3.4?可視化平面設(shè)計能力

數(shù)據(jù)新聞的可視化表達為新聞行業(yè)注入了一股新鮮的血液,讓數(shù)據(jù)新聞充滿希望與活力。數(shù)據(jù)新聞的可視化圖片將不同的時間和空間聯(lián)系在一起,將繁雜的數(shù)據(jù)簡單化,便于受眾理解,更有利于受眾參與其中,滿足不同受眾的各方面需求。數(shù)據(jù)新聞的可視化是其一大特點,因此對于新聞工作者來說,應(yīng)熟練掌握可視化技術(shù),學(xué)會識圖制圖以及各種表格的制作。

最后,筆者介紹一個數(shù)據(jù)新聞的資料庫,在這里小伙伴們可以看到國內(nèi)外許多優(yōu)秀的數(shù)據(jù)新聞案例,要做優(yōu)秀的數(shù)據(jù)新聞制作者,首先從模仿學(xué)習(xí)做起。

新華網(wǎng)數(shù)據(jù)新聞信息庫鏈接地址:http://djchina.org/showcase/

好了,看到這里的小伙伴,我?guī)缀蹩梢詳喽ㄊ钦鎼哿?,希望你們能掌握好這些“工具”,成為運營領(lǐng)域的“增長黑客”,不必羨慕什么“技術(shù)流”,因為創(chuàng)造性思維和強烈的好奇心會給你帶來好運的,等到工具、技能和思維三者融會貫通的時候,就會像獨孤求敗那樣:

“不滯於物,飛花草木皆可傷人,草木竹石均可為劍”!

參考資料

  1. 范冰,《增長黑客》
  2. 新浪微熱點官網(wǎng)官方介紹
  3. NLPIR在線系統(tǒng)官方介紹
  4. IBM Watson?Tone?Analyzer官方文檔
  5. 百度百科“數(shù)據(jù)新聞”詞條
  6. CNN在2016.07美國總統(tǒng)大選預(yù)測網(wǎng)站
  7. FT數(shù)據(jù)新聞網(wǎng)

#專欄作家#

蘇格蘭折耳喵,微信公眾號:運營喵是怎樣煉成的,人人都是產(chǎn)品經(jīng)理專欄作家。數(shù)據(jù)分析愛好者,擅長數(shù)據(jù)分析和可視化表達,喜歡研究各種跟數(shù)據(jù)相關(guān)的東東。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 看了兩遍,真贊?。?/p>

    來自福建 回復(fù)
  2. 先收藏 再看看

    來自北京 回復(fù)
  3. 有適合新手的嗎,看不太懂

    來自湖南 回復(fù)
  4. 牛逼的不行

    回復(fù)
  5. 文本挖掘工具的鏈接不對 ??

    來自福建 回復(fù)
    1. 你得登錄

      回復(fù)
  6. 老哥,牛逼了,瘋狂為你打電話啊

    來自上海 回復(fù)
    1. ??

      來自浙江 回復(fù)
  7. 數(shù)碼寶貝里的不叫小精靈……

    來自廣東 回復(fù)
    1. 是不叫這個,這是我叫的,準(zhǔn)確的來說,應(yīng)該打上雙引號。哈哈哈

      來自上海 回復(fù)
  8. 感謝分享

    來自浙江 回復(fù)
  9. 是我是我還是我,居然看到快10點了。給大佬獻上我的膝蓋 ??

    來自北京 回復(fù)
    1. 勤奮好學(xué),終有所成~為你點個贊??

      回復(fù)
  10. 感謝分享

    來自廣東 回復(fù)
  11. 感謝分享,邊看邊操作的,成功做出來了詞云,還有好多內(nèi)容不會,慢慢吸收

    來自北京 回復(fù)
    1. 練中學(xué),干中會,設(shè)這個理兒! ??

      來自上海 回復(fù)
  12. 收集的真全,再給你推薦個 DataExa

    來自北京 回復(fù)
    1. 這個產(chǎn)品太貴且申請麻煩,我分享的都是觸手可及或是免費的工具。

      來自上海 回復(fù)
  13. 牛逼的不要不要的

    來自廣東 回復(fù)
  14. 好難吸收! ?

    來自廣東 回復(fù)
    1. 邊看邊操作,慢慢會吸收的

      來自上海 回復(fù)
  15. 寫的不錯 ??

    來自內(nèi)蒙古 回復(fù)
  16. 太有收獲了,厲害呀前輩,膜拜

    來自四川 回復(fù)
  17. 喵~! ?? 很不錯哦。

    來自廣東 回復(fù)
  18. 沒有比工具更干貨的東西

    來自河南 回復(fù)
    1. 嗯,工具是手和大腦的延伸,能干很多我們干不了的事情

      來自上海 回復(fù)
  19. 厲害了,還有個工具Tableau,做可視化很不錯的

    來自廣東 回復(fù)
    1. 那是BI了,要花銀子的

      來自上海 回復(fù)
  20. 好的

    來自上海 回復(fù)
  21. 不是在這里獲取嗎??

    回復(fù)
  22. 清晰文檔

    回復(fù)
  23. 我對新浪微輿情熱點趨勢預(yù)測那塊很感興趣,試了下,果然像喵哥說的那樣,能研判事件的走向,牛?。?!

    回復(fù)
    1. 靈活運用工具很重要,我說的這些用法官方說明里可沒有哦 ??

      來自上海 回復(fù)
  24. 圖悅之前有用過,當(dāng)時覺得有局限性且詞云效果不好,不夠美觀,所以棄了;百度指數(shù)倒是經(jīng)常使用,可以看到關(guān)鍵詞的搜索規(guī)模情況及漲跌態(tài)勢,不過樓主介紹的新浪微輿情的最突出的峰值節(jié)點的重點信息聚類不錯;其實新浪微輿情我也一直有在用它的信息監(jiān)測還有事件分析功能,感覺非常好用,比較專業(yè),其他功能后面陸續(xù)還會試用。總之,拜讀完文章受益匪淺,小工具都非常實用,樓主辛苦了,感謝!

    來自上海 回復(fù)
    1. 能幫到大家,吾心足矣! ??

      來自上海 回復(fù)
  25. 微輿情的這個趨勢預(yù)測功能真的蠻強大的,對于新媒體運營很有幫助。

    來自上海 回復(fù)
    1. 工具是死的,人是活的,會用就能發(fā)揮出奇效 ??

      來自上海 回復(fù)
  26. ??

    來自上海 回復(fù)
    1. ??

      來自上海 回復(fù)