萬字干貨|10款數(shù)據(jù)分析“工具”,助你成為新媒體運營領(lǐng)域的“增長黑客”
不必羨慕什么“技術(shù)流”,即使是不懂技術(shù)和復(fù)雜數(shù)學(xué)知識的你,照樣能成為新媒體運營領(lǐng)域的“增長黑客”!因為創(chuàng)造性思維和強烈的好奇心會給你帶來好運的,等到工具、技能和思維三者融會貫通的時候,就會像獨孤求敗那樣——“不滯於物,飛花草木皆可傷人,草木竹石均可為劍”!
1?成為新媒體運營領(lǐng)域的“增長黑客”
1.1 一般意義上的“增長黑客”
“增長黑客(Growth Hacker)”,這個近幾年來風(fēng)靡中國互聯(lián)網(wǎng)界的新興概念,濫觴于美國硅谷互聯(lián)網(wǎng)創(chuàng)業(yè)圈,國內(nèi)則是由范冰首先引進,他的著作《增長黑客:創(chuàng)業(yè)公司的用戶與收入增長秘籍》使這個概念深入人心。
結(jié)合國內(nèi)外關(guān)于“增長黑客”的表述:“增長黑客”是以數(shù)據(jù)驅(qū)動營銷、以市場指導(dǎo)產(chǎn)品,通過技術(shù)手段貫徹增長目標(biāo)的一群人。這就需要他們既了解技術(shù),寫得了代碼;又能了解人性,能捕捉用戶的心理感受和真實需求;最重要的是,他們經(jīng)常能突發(fā)奇想,發(fā)揮創(chuàng)意,大開腦洞,以小的投入獲取較多的用戶和收入。
一言以蔽之,“增長黑客”就是具備各種跨界技能,可以利用各種巧妙的手段以極小的成本獲取大量用戶,實現(xiàn)最終的收入增加。
“增長黑客”讓那些資金不夠充裕、前期資源緊缺和初始用戶匱乏的初創(chuàng)型互聯(lián)網(wǎng)初創(chuàng)團隊看到了“四兩撥千斤”的希望,小投入也能辦大事。
“增長黑客”的一個很好的理念,但它在不同的互聯(lián)網(wǎng)領(lǐng)域有著不同的形態(tài),具體的實現(xiàn)手法也不盡相同,比如在新媒體運營領(lǐng)域。
1.2 新媒體運營領(lǐng)域的“增長黑客”
新媒體是跟隨互聯(lián)網(wǎng)興起的一個新興媒體形態(tài),它已經(jīng)在很大程度上顛覆了以往的紙質(zhì)刊物、廣播及電視等傳統(tǒng)媒體,重要性不言而喻。關(guān)于它的概念和內(nèi)涵,筆者不想多說,網(wǎng)上有很多的詳細(xì)介紹。在這里,筆者認(rèn)為新媒體最為重要的一個特征是:
人人都可以是信息的生產(chǎn)者,人人也都是信息的傳播者。
這意味著無論是誰,包含企業(yè)、機構(gòu)還有個人,都有機會成為這個新媒體時代的成功者。咪蒙、一條、十點讀書即是例證。
然而,隨著中國的互聯(lián)網(wǎng)時代進入下半場,新媒體行業(yè)也從野蠻生長的時代進入“弱肉強食”的“叢林時代”,常規(guī)的新媒體運營手段(包括內(nèi)容、展現(xiàn)形式及推廣方法等)已經(jīng)很難從用戶增長緩慢和收入增長停滯的困境中突圍出來。
寫到這里,筆者不由得想到兒時看過的動漫——《數(shù)碼寶貝》中的主人公身邊各類可愛的小精靈,在遇到危急情況時會進化,由“成長期”進化到“成熟期”、“完全體”,甚至是“究極體?”,適應(yīng)性和攻擊力呈現(xiàn)指數(shù)級的提升,足以在危如累卵的逆境中打敗強大的敵人,反敗為勝。
與此類似,廣大新媒體從業(yè)者們在這個時候,也需要“進化”,完成華麗的轉(zhuǎn)身—采用精細(xì)運作、量化分析的科學(xué)手段去進行新媒體運營,以適應(yīng)這個足以革新我們思維觀念的“大數(shù)據(jù)時代”,而“增長黑客”正是一劑良方。
從前面對“增長黑客”的介紹中,我們可以發(fā)現(xiàn):
“增長黑客”是一個多面手的角色,需要掌握跨領(lǐng)域的知識,其中最為核心的技能即是懂技術(shù)、精通數(shù)據(jù)分析。
然而,技術(shù)(碼代碼、編寫程序等)和數(shù)據(jù)分析(數(shù)學(xué)知識和BI軟件操作等)對于很多做新媒體運營的小伙伴來說,是十分棘手的兩樣事物:很多從事新媒體運營的小伙伴是正兒八經(jīng)的文科生畢業(yè),文案和排版方面,他們可以說是“長袖善舞”,但技術(shù)和數(shù)據(jù)分析卻可能是他們的“夢魘”。
鑒于這種情形,筆者提倡“人+數(shù)據(jù)驅(qū)動思維+工具”理念—以人為本,從運營者自身的知識結(jié)構(gòu)出發(fā),以數(shù)據(jù)/量化思維作為方法論,用工具輔助運營,從而做到揚長避短,把自己的精力集中在重要的事情上。
筆者在這里特意收羅了10幾款跟數(shù)據(jù)分析有關(guān)的工具,以彌補技術(shù)小白和數(shù)據(jù)分析小白技能上的匱乏,而且掌握它們不需要很懂技術(shù),連數(shù)據(jù)分析這項技能也能借助它們輕松get。
值得注意的是,本文所要介紹的工具,并不是狹義上的“工具”,如可視化工具、文本分析工具和事件熱度趨勢/預(yù)測分析操作類工具,還包括數(shù)據(jù)新聞這種廣義上的新型信息載體;更為重要的是,他們分別代表著四種思維/觀念—重視非結(jié)構(gòu)性數(shù)據(jù)、科學(xué)化預(yù)測、信息的具象化呈現(xiàn)以及用數(shù)據(jù)講故事,這些“工具”都是為達到、完成或促進新媒體運營效果的有利武器。
如下圖所示,以下是本文的行文結(jié)構(gòu):
新媒體運營的“增長黑客”數(shù)據(jù)分析工具箱
2?文本分析工具
文本分析的重要性筆者已經(jīng)在之前的兩篇文章中有過論述,詳見《數(shù)據(jù)運營|數(shù)據(jù)分析中,文本分析遠(yuǎn)比數(shù)值型分析重要?。ㄉ希?/a>》《在運營中,為什么文本分析遠(yuǎn)比數(shù)值型分析重要?一個實際案例,五點分析(下)》,故本文不做贅述,直奔工具應(yīng)用的主題。
2.1 NLPIR在線系統(tǒng)
NLPIR,即“自然語言處理與信息檢索共享平臺”的英文縮寫, 打開該網(wǎng)址,即可進入主界面—“語義分析系統(tǒng)”,顧名思義,它是一個在線的中文語義分析工具,因為非商業(yè)化,它對處理文本的篇幅大小也有限制,只能處理3000字,可以給熱衷于文本分析的小伙伴過過癮,但要想用于商業(yè)目的,那只能呵呵了。
NLPIR在線系統(tǒng)的首頁
上圖中間部分的11個圓圈即是該系統(tǒng)的所有功能,但其中有幾個只是掛出來,目前還未實現(xiàn),結(jié)合新媒體運營工作中的實際需求,筆者只介紹其中幾個比較有實用價值的功能模塊。
以下以《<你的名字。>破5.5億元日媒:和中國聯(lián)手有錢賺》這則新聞作為測試文本,筆者來給大家介紹下這個系統(tǒng)中的實體抽取、詞頻統(tǒng)計、文本分類、情感分析和關(guān)鍵詞提取這5個比較有實用價值、且準(zhǔn)確度較高的功能模塊。
2.1.1?實體抽取
NLPIR中的“實體抽取”功能模塊可以智能識別出測試文本中出現(xiàn)的人名、地名、機構(gòu)名、媒體、作者及文章的主題關(guān)鍵詞,這是對語言規(guī)律的深入理解和科學(xué)預(yù)測,它提煉出的詞語不需要在詞典庫中事先存在。
實體抽取的圖表效果支持力導(dǎo)向圖和弦圖這兩種形式,如下圖所示:
測試文本“實體抽取”的2種呈現(xiàn)形式
上圖中,從“文本”這個一級類目中,分別分出了“關(guān)鍵詞”、“地名”、“時間”這3個二級類目,由此能大致判斷出測試文本中包含的事件元素,如主題是關(guān)于電影的,涉及國家(地區(qū))間的對比,還有縱向時間維度的分析,一些關(guān)鍵詞能讓我們把握文章中重要的詞句。
2.1.2?詞頻統(tǒng)計
在一份給定的文件里,詞頻(term frequency,TF)指的是某一個給定的詞語在該文件中出現(xiàn)的次數(shù)。
在文本分析中,詞頻統(tǒng)計是較為常規(guī)的、同時也是最為重要的一個環(huán)節(jié),它用來評估一個詞對于一個文件或者一個語料庫中的一個領(lǐng)域文件集的重要程度。
NLPIR只展示了名詞、動詞、形容詞這3種開放詞類,這個3個此類也是一段文本中最為重要的3個部分:
- 名詞介紹文章中的各個主體,能讓我們知道文本描述的對象是誰;
- 動詞表征各個主體的動作和行為,能讓我們知道關(guān)于主體發(fā)生了什么;
- 而形容詞則能描述主體及動作/行為的特征,能讓我們知道主體及其行為/動作的性質(zhì)、狀態(tài)、特征或?qū)傩浴?/li>
NLPIR的詞頻統(tǒng)計只展示了上述詞類的Top 10結(jié)果,以折線圖和條形圖的形式進行展現(xiàn)??戳讼旅娴脑~頻分類展示,聯(lián)想文章標(biāo)題,我們很自然地了解到《你的名字?!愤@部電影在市場上獲得了不錯的業(yè)績,引發(fā)中日媒體的廣泛報道和關(guān)注……
測試文本的詞頻統(tǒng)計呈現(xiàn)
2.1.3?文本分類
NLPIR“文本分類”部分目前所展示的類別只是新聞的政治、經(jīng)濟、軍事、交通等,分類有待擴展和細(xì)化。
NLPIR深度文本分類,可以用于新聞分類、簡歷分類、郵件分類、辦公文檔分類、區(qū)域分類等諸多方面。此外,它還可以實現(xiàn)文本過濾,能夠從大量文本中快速識別和過濾出符合特殊要求的信息,可應(yīng)用于品牌報道監(jiān)測、垃圾信息屏蔽、敏感信息審查等領(lǐng)域。
然而,從測試的效果來看,這個功能模塊的分析效果還不甚準(zhǔn)確,它沒有“娛樂”這一分類,但起碼也應(yīng)該劃入“其他”這一類中。
測試文本的文本分類結(jié)果呈現(xiàn)
2.1.4?情感分析
NLPIR的“情感分析”提供兩種模式:全文的情感判別(左圖)與指定對象的情感判別(右圖)。大類上,“情感分析”部分分為“正(面)”和“負(fù)(面)”這兩大類情感,這是內(nèi)層;在外層,兩個大類又分為“樂”、“好”、“怒”、“哀”、“懼”、“惡”、“驚”7中細(xì)分的情感,這也就是大家常說的“七情六欲”中的“七情”。
目前正負(fù)面的判斷已經(jīng)較為成熟,但鑒于漢語的博大精深和詞匯語義(用法)的波譎多變(反諷、貶義褒用、語境變化等),細(xì)分情緒的判斷準(zhǔn)確度還值得觀察。
測試文本的情感分析結(jié)果呈現(xiàn)
觀察上面測試文本的情感分析效果圖,再比對原始文本,這個判斷大致上是準(zhǔn)確的,但負(fù)面的部分應(yīng)該比實際的占比小,尤其是“惡”這個部分—筆者并未發(fā)現(xiàn)有出現(xiàn)厭惡的語句和詞匯。
2.1.5?關(guān)鍵詞提取
這里的關(guān)鍵詞提取和前面的詞頻統(tǒng)計有一定的聯(lián)系,但二者的算法(實現(xiàn)方法)是不一樣的:
- 詞頻統(tǒng)計:詞頻統(tǒng)計的是一個詞在文章中出現(xiàn)次數(shù),出現(xiàn)的次數(shù)越多一般越重要;
- 關(guān)鍵詞提取:關(guān)鍵詞提取則是依據(jù)TF-IDF(term frequency–inverse document frequency,詞頻–反轉(zhuǎn)文件頻率),用以評估一個詞對于文本內(nèi)容的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。比如,“如果”、“也”、“你們”等詞匯,他們出現(xiàn)的頻次很高,但它們的重要性就很弱。
測試文本的關(guān)鍵詞分析
從上圖中測試文本的“關(guān)鍵詞提取”中可以發(fā)現(xiàn),這部分和“詞頻統(tǒng)計”部分既有重合也有明顯區(qū)分,原因就在于上述的算法不同。
值得注意的是,不論是“詞頻統(tǒng)計”還是“關(guān)鍵詞提取”,已經(jīng)設(shè)置了“停用詞(stopwords)”,在進行上述分析的時候,自動的將那些無明顯意義的副詞、冠詞、代詞給去掉了。
2.2?文本挖掘工具
文本挖掘工具(注冊登錄后才可見)是一款免費的在線的文本分析工具,它可以對輸入的文本進行高頻詞分析、關(guān)鍵詞提取、情感判斷、實體識別、詞性分析、關(guān)鍵詞云和關(guān)聯(lián)詞的可視化展示。同時,本工具還為用戶提供了多種自定義設(shè)置,包括分詞模式選擇(3種)、自定義停用詞、自定義詞典、自定義中心關(guān)鍵詞(針對關(guān)聯(lián)詞圖)、數(shù)據(jù)導(dǎo)出(詞匯、詞頻、權(quán)重)。
更重要的是,高頻詞/關(guān)鍵詞分析的結(jié)果可以導(dǎo)出成excel格式的文件,便于后期分析和處理。
文本挖掘工具的產(chǎn)品主界面
值得注意的是,文本挖掘工具導(dǎo)出的excel文檔有三列:提取出的詞語、詞頻數(shù)、詞匯權(quán)重。后兩個指標(biāo),筆者已經(jīng)在前面做過論述,不明白的小伙伴可以“倒帶”回去看看。
2.3 Tone Analyzer
Tone Analyzer是一款由IBM推出的、基于云計算的人工智能文本分析工具,能對電子郵件、博客文章以及手機短信進行感情色彩分析,以確定它的措辭是否如實地表達了你的憤怒、肯定、高興或者悲傷等感情。
ToneAnalyzer的主界面
這一用來幫助評估和改善文字溝通當(dāng)中的語氣的服務(wù)目前尚處實驗?zāi)J?,如獲成功,或?qū)⒏淖兾磥砩碳液蜖I銷人員同消費者、客戶的溝通方式。
更重要的是,它可以應(yīng)用到新媒體運營者的內(nèi)容校正中來:
- 用來查驗文章內(nèi)容的調(diào)性和風(fēng)格,了解自己的文字給人留下的印象如何,以使公眾號的內(nèi)容運營不偏離預(yù)設(shè)的定位。
- 幫助品牌運營者和內(nèi)容輸出分析,撰寫何種風(fēng)格的文案才可以引起受眾的共鳴。
Tone?Analyzer的評價系統(tǒng)包含三個維度,各個維度及其簡介如下圖所示:
Tone?Analyzer的評價系統(tǒng)的三個維度
以下是Tone?Analyzer的使用案例,大家可以從下面的幾個模塊中獲得對文字信息的洞察,這部分筆者不做詳述,感興趣的小伙伴可以去官網(wǎng)查閱文檔。
輸入文本信息和選擇分析類別
文本信息3個維度的分析結(jié)果
文本信息段落的逐行分析(附有標(biāo)記)
3?熱點捕獲/趨勢預(yù)測工具
3.1?搜索指數(shù)型
這里的搜索指數(shù)型趨勢工具指的是,它們的數(shù)據(jù)絕大部分是基于用戶的搜索行為,即用戶搜索關(guān)鍵詞而形成的數(shù)據(jù)及其展示,有一定的預(yù)測價值,但缺點是并不能發(fā)現(xiàn)搜索行為背后的原因。
3.1.1 百度指數(shù)
關(guān)于百度指數(shù)的介紹,筆者僅貼出部分官方關(guān)于功能的介紹:
百度指數(shù)是以百度海量網(wǎng)民行為數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)分享平臺,它能夠告訴用戶:某個關(guān)鍵詞在百度的搜索規(guī)模有多大,一段時間內(nèi)的漲跌態(tài)勢以及相關(guān)的新聞輿論變化,關(guān)注這些詞的網(wǎng)民是什么樣的,分布在哪里,同時還搜了哪些相關(guān)的詞,幫助用戶優(yōu)化數(shù)字營銷活動方案。
關(guān)于詳細(xì)它的使用方法及一些關(guān)鍵原理,筆者在《尋找創(chuàng)業(yè)方向時,如何零成本用大數(shù)據(jù)獲悉市場行情?》有詳述,感興趣的小伙伴可以去看看。
3.1.2 微指數(shù)
(微博)微指數(shù)是新浪微博官方的數(shù)據(jù)分析工具,基于新浪微博的全量數(shù)據(jù),通過關(guān)鍵詞的熱議度,以及行業(yè)/類別的平均影響力,來反映微博輿情或賬號的發(fā)展走勢。微指數(shù)分為熱詞趨勢、實時趨勢、(信息分布)地域解讀和(用戶)屬性分析4個板塊。
“熱詞趨勢”部分與百度指數(shù)的趨勢很相像,但它有一個更為有價值的地方—點擊趨勢曲線中的各個節(jié)點,會顯示出關(guān)注度排名靠前的3條微博,可以做到“知其然并知其所以然”。
微指數(shù)的熱詞趨勢圖
“實時趨勢”則反映該熱詞近一天的走勢情況?!暗赜蚪庾x”即該熱詞相關(guān)微博信息的地域分布情況。
最后一個功能板塊是“屬性分析”,這部分能獲悉關(guān)注該熱詞及其相關(guān)事件的人群畫像,有性別、年齡、興趣標(biāo)簽比例和星座標(biāo)簽比例這4個人群屬性。
微指數(shù)的“(人群)屬性分析”
這部分可以參看筆者之前寫的兩篇文章《當(dāng)數(shù)據(jù)分析遭遇心理動力學(xué):用戶深層次的情感需求浮出水面》、《如何用數(shù)據(jù)分析,搞定新媒體運營的定位和內(nèi)容初始化?》,不失時機將其運用到實際的運營工作中來,而不是僅僅停留在人群屬性的分析描述層面。
3.2?現(xiàn)網(wǎng)信息型
現(xiàn)網(wǎng)信息型,顧名思義,就是該類工具的主要數(shù)據(jù)來源于現(xiàn)有的網(wǎng)絡(luò)信息(主要是基于社會化媒體的文本數(shù)據(jù),詳情請參看《干貨|如何利用Social Listening從社會化媒體中“提煉”有價值的信息?》),而不是基于網(wǎng)民的搜索行為,因而通過它可以找到熱詞或事件關(guān)注(量)發(fā)生波動起伏的原因。
一般來說,這類數(shù)據(jù)產(chǎn)品的典型應(yīng)用領(lǐng)域在輿情領(lǐng)域(包括輿情監(jiān)測、品牌口碑監(jiān)測等),比如新浪微熱點(以前叫“新浪微輿情”)。
新浪微熱點的主頁
新浪微熱點—“熱度指數(shù)”產(chǎn)品頁面
以下是新浪微熱點這個大數(shù)據(jù)分析工具的介紹,我們能從中看到現(xiàn)網(wǎng)信息型熱度分析工具的基本原理:
“利用獨有的分布式網(wǎng)絡(luò)技術(shù),對互聯(lián)網(wǎng)上輿情、口碑相關(guān)數(shù)據(jù)源進行完整采集,同時根據(jù)用戶預(yù)定的監(jiān)控關(guān)鍵詞對全網(wǎng)數(shù)據(jù)進行補充獲取?!靶吕宋狳c”可以在很短時間內(nèi)收錄到國內(nèi)外重要網(wǎng)站、論壇、微博、微信公眾號、貼吧、博客等互聯(lián)網(wǎng)開放平臺的相關(guān)信息,通過中文智能分詞、自然語言處理、正負(fù)面研判等大數(shù)據(jù)處理技術(shù)對收錄到的信息進行處理并分析…
可以看出,現(xiàn)網(wǎng)信息型熱度分析工具的數(shù)據(jù)基于現(xiàn)有的全網(wǎng)信息搜集,并經(jīng)過自然語言處理等技術(shù)對文本信息進行信息的“去粗取精”,從而有效把握事件的重要方面和影響因素?!?/p>
下面,筆者來詳述新浪微熱點的幾個很有價值的功能模塊—分別是熱度指數(shù)(包括熱度指數(shù)、傳播分析、口碑分析和微博情緒)、信息監(jiān)測、事件分析(包括全網(wǎng)事件分析和微博事件分析)和微博傳播效果分析,它們可以很好的運用到新媒體領(lǐng)域,可以在熱點追蹤、內(nèi)容規(guī)劃、受眾畫像分析和營銷分析方面給予運營者們以有益的指導(dǎo)。
3.2.1 (事件)熱度趨勢分析
在地震救援中,有一個概念叫做“黃金72小時”,它是地質(zhì)災(zāi)害發(fā)生后的黃金救援期。因為救援界認(rèn)為,災(zāi)難發(fā)生之后存在一個“黃金72小時”,在此時間段內(nèi),災(zāi)民的存活率極高。
同樣,在新媒體內(nèi)容運營追蹤熱點事件方面,也存在類似的定律,能在最短的時間內(nèi),把握觀眾所關(guān)注事件的發(fā)展走向和輿論傾向,因勢利導(dǎo),就能成功的“借勢“。
新浪微熱點的(事件)熱度趨勢分析中有一個能反映事件關(guān)注度的一個數(shù)據(jù)指標(biāo)—熱度指數(shù),它的全稱是“網(wǎng)絡(luò)傳播熱度指數(shù)”,是指在從新聞媒體、微博、微信、客戶端、網(wǎng)站、論壇等互聯(lián)網(wǎng)平臺采集海量信息的基礎(chǔ)上,提取與指定事件、人物、品牌、地域等相關(guān)的信息,并對所提取的信息進行標(biāo)準(zhǔn)化計算后得出的指數(shù)。
熱度指數(shù)能客觀反映事件、人物、品牌、地域等在互聯(lián)網(wǎng)上的受關(guān)注程度。熱度指數(shù)所呈現(xiàn)的數(shù)值為0~100,數(shù)值越大,表明其網(wǎng)絡(luò)受關(guān)注度越高。
下面舉個栗子,拿前不久廣受關(guān)注的“淘寶被列入惡名市場名單”事件作為分析對象,來看看(事件)熱度趨勢分析的各個功能模塊是如何運用到新媒體運營領(lǐng)域的。
(1)熱度概況和熱度趨勢
從下圖的“指數(shù)概況”部分,我們可以看到,淘寶被列入惡名市場名單”在72小時內(nèi)(當(dāng)然也可以選擇24小時這個時間區(qū)間)的熱度同比增長達到62315%,表明互聯(lián)網(wǎng)上關(guān)于該事件的媒體報道和公眾評論信息出現(xiàn)驟增的情形,且指數(shù)有將近6%的增幅,幅度不大結(jié)合這兩個指標(biāo)可以看出,在近72小時內(nèi)該事件很火熱,且熱度呈現(xiàn)穩(wěn)步增長的趨勢。值得注意的是,這里的“同比”和“指數(shù)變化”是針對此次查詢的72小時區(qū)間和上一個72小時區(qū)間的數(shù)值進行對比的。
在“熱度指數(shù)”部分,由時間軸和熱度指數(shù)軸構(gòu)成的折線圖反映了近72小時內(nèi)該事件熱度指數(shù)的變化趨勢,這個折線圖的分析意義重大,能起到預(yù)測事件未來熱度走勢的神奇作用。
在分析熱度指數(shù)的折線圖的時候,要注意從微觀層面和宏觀層面上的把握。在微觀層面上,要特別注意折線圖中比較重要的節(jié)點,特別是峰值節(jié)點,它代表其對應(yīng)的時間點它的關(guān)注度較高,要注意發(fā)現(xiàn)事件爆發(fā)的時間規(guī)律;在宏觀層面上,要看整條折線的整體走向,是整體呈現(xiàn)上升趨勢,還是呈現(xiàn)關(guān)注度的下降趨勢,當(dāng)情況屬于前者時,新媒體運營者們則可以繼續(xù)跟進事件的發(fā)展,接著“借勢”和“跟風(fēng)”。
熱度概況及熱度趨勢分析
既然知道了事件熱度的峰值節(jié)點出現(xiàn)在哪個時間點,這時我們肯定想了解這些時間區(qū)間內(nèi)事件關(guān)注度驟然上升的原因。還好,緊接著“熱度趨勢”,下方給出了其中最突出的峰值節(jié)點出現(xiàn)的原因,以重點信息聚類的方式呈現(xiàn)。
在下圖中,呈現(xiàn)的是12月23日 08時,達到24的峰值時的重點信息聚類。給出了這些熱門文章的標(biāo)題和來源站點,點擊標(biāo)題即可進入相應(yīng)的網(wǎng)頁,查看源信息。
最突出峰值節(jié)點的信息聚類
這里需要強調(diào)的是,對于最突出峰值節(jié)點的重點聚類信息的解讀十分重要,因為這些文章閱讀數(shù)高,抑或是轉(zhuǎn)發(fā)量高,在某種程度上表明了公眾對于這些信息的認(rèn)可度高,能代表一定的公眾輿論傾向。作為新媒體內(nèi)容運營者來說,引導(dǎo)公眾看法難度太大,不是人人都能做成意見領(lǐng)袖的,能因勢利導(dǎo)的輸出順應(yīng)公眾觀點的文章可能是上策。
(2)事件熱度信息的關(guān)鍵詞詞云
這里的關(guān)鍵詞云是由互聯(lián)網(wǎng)上各個渠道的海量信息進行中文智能分詞和自然語言處理所得,濃縮了關(guān)于該事件的TOP60關(guān)鍵詞,能在一定程度上反映出事件的各個要素。
詞語的大小代表該詞出現(xiàn)次數(shù)的多寡,也表明了該關(guān)鍵詞對于事件的重要程度如何。在進行內(nèi)容組織的時候,可以考慮這些詞頻數(shù)高詞匯所代表的方面,如在“淘寶列入惡名市場名單”這一事件中,除了“惡名市場”、“名單”這些出現(xiàn)在標(biāo)題之中的關(guān)鍵詞外,還有“加大力度”、“納入保護”、“知識產(chǎn)權(quán)”等關(guān)鍵詞表征的方面作為文章內(nèi)容的著力方向。
“淘寶列入惡名市場名單”事件的關(guān)鍵詞詞云
(3)事件熱度信息的來源類型
“信息來源”部分中,反映出了事件信息的來源占比情況,比重較大的部分是需要運營者重點關(guān)注的渠道。
“淘寶列入惡名市場名單”事件的信息在“微博”這一信息渠道中的比重最多,其次是“網(wǎng)站”、“新聞”、“客戶端”等,具體的數(shù)據(jù)為:微博(49.32%)、網(wǎng)站(27.73%)和新聞(10.13%)。
“淘寶列入惡名市場名單”事件的信息來源分布
針對微博信息量為何占據(jù)如此大的比重這個問題,筆者找到了今年11月份新浪微博官方的一份關(guān)于微博UGC的數(shù)據(jù),頓時了然:
新浪微博2016年P(guān)GC、UGC幾項關(guān)鍵數(shù)據(jù)
新浪微輿情是新浪微博旗下的子公司,擁有全量的微博數(shù)據(jù),再加上騰訊微博的信息量,因而其他渠道的信息量比例會被微博這一渠道巨大的UGC內(nèi)容給稀釋掉,形成絕對信息量不小但看起來很少的效果。
(4)事件熱度信息的地域分布
(事件熱度信息的)地域分布反映的是搜索事件的全網(wǎng)信息量在全國各地的分布情況,這一點與百度指數(shù)的原理一樣。
?“淘寶列入惡名市場名單”事件的信息地域分布
從地域分布來看,與“淘寶列入惡名市場名單”相關(guān)的信息主要來源北京(3561條)、廣東(1139條)和上海(834條)。
(5)事件熱度信息的關(guān)聯(lián)詞分析
事件熱度信息的關(guān)聯(lián)詞分析,它是通過系統(tǒng)自動運算找出事件核心詞、并計算出與核心詞同時出現(xiàn)關(guān)聯(lián)度最高的高頻詞,也就是與核心詞共現(xiàn)頻率最高的詞匯(關(guān)于“共現(xiàn)”的原理介紹,請看《如何用數(shù)據(jù)分析,搞定新媒體運營的定位和內(nèi)容初始化?》的第三部分)。
下圖中的關(guān)聯(lián)詞和弦圖和對應(yīng)關(guān)聯(lián)度數(shù)據(jù)表反映了該事件的關(guān)聯(lián)詞情況。
“淘寶列入惡名市場名單”的關(guān)聯(lián)詞分析
通過對與“淘寶列入惡名市場名單”相關(guān)的信息進行分析后可看出,與其核心詞惡名市場關(guān)聯(lián)度最高的詞語為淘寶(100.00%)、美國(99.06%)和名單(97.19%)。
3.2.2 信息監(jiān)測
一直以來,(輿情、口碑)信息監(jiān)測的主要用戶是政府、大型企業(yè)和專業(yè)新聞媒體,因而對應(yīng)的主要功能是傾聽民意、監(jiān)測自身(也包含競品)的品牌口碑及動向,以及追蹤熱點事件走向等。此外,它可以通過各種預(yù)警設(shè)置,對關(guān)注事件產(chǎn)生的新信息進行第一時間的提醒,以免運營者遺漏重要信息。
實際上,信息監(jiān)測可以用于新媒體領(lǐng)域,結(jié)合上面提及的“事件熱度趨勢分析”板塊,媒體運營者可以有效的追蹤熱點事件的最新進展,做到不遺漏。
關(guān)于它的應(yīng)用場景,筆者目前想到2個:
(1)文章轉(zhuǎn)載的全網(wǎng)監(jiān)測
筆者平時會寫一些關(guān)于互聯(lián)網(wǎng)數(shù)據(jù)運營的文章,發(fā)布在一些知名的互聯(lián)網(wǎng)平臺上,因此想監(jiān)測一下全網(wǎng)轉(zhuǎn)載的情況,比如筆者最近的一篇文章—《如何用數(shù)據(jù)分析,搞定新媒體運營的定位和內(nèi)容初始化?》,在“信息監(jiān)測”的監(jiān)測方案部分設(shè)置好關(guān)鍵詞后,選好時間區(qū)間,轉(zhuǎn)載的詳細(xì)情況和數(shù)據(jù)統(tǒng)計圖表盡收眼底:
文章轉(zhuǎn)載的信息列表
筆者文章轉(zhuǎn)載的各種信息反饋圖表
(2)關(guān)注信息的全網(wǎng)監(jiān)測
運營者可以在監(jiān)測方案中按設(shè)置指定的關(guān)鍵詞,定向的追蹤自己感興趣的事件、公司、品牌和資料等信息。
以下是筆者在學(xué)習(xí)數(shù)據(jù)分析時,進行的關(guān)鍵詞設(shè)置,多個零散詞匯通過邏輯運算符形成了一個監(jiān)測方案,可以無遺漏的監(jiān)測自己關(guān)注的信息,同時系統(tǒng)也會過濾掉垃圾信息。
通過各種邏輯運算符設(shè)置信息監(jiān)測的關(guān)鍵詞
設(shè)置好監(jiān)測方案以后,點擊“圖表分析”,即可看到如下圖所示的各種監(jiān)測方案信息量的可視化分析圖表。
監(jiān)測方案的信息量的走勢圖
監(jiān)測方案的信息量分布情況
監(jiān)測方案信息量的地理分布情況
再選擇“信息列表”項,通過時間、地域、渠道等選項的篩選,我們就可以得到自己想要的信息了。此外點擊其中一條信息,即可進入信息詳情頁,如下圖所示:
監(jiān)測方案的信息列表
監(jiān)測信息的詳情頁
另外,這個功能模塊還有幾個功能,如下圖所示,篇幅有限,感興趣的小伙伴自己去試試吧。
“信息監(jiān)測”板塊的預(yù)警通知、監(jiān)測日報和定向監(jiān)測功能
3.2.3 事件分析
事件分析(包括全網(wǎng)事件分析和微博事件分析)指的是,輸入近期事件或話題關(guān)鍵詞,系統(tǒng)自動進行深度挖掘和多重分析,記錄事件從始發(fā)到發(fā)酵期、發(fā)展期、高漲期、回落期和反饋期等階段的演變過程,分析輿情傳播路徑、關(guān)鍵詞云、發(fā)展態(tài)勢、受眾反饋和網(wǎng)民觀點分析。
關(guān)于它的實際使用攻略,筆者之前寫過一篇文章詳細(xì)介紹過,請參看《【數(shù)據(jù)運營】傅園慧和她的“洪荒之力”的大數(shù)據(jù)輿情分析》。
3.2.4 微博傳播效果分析
微博傳播效果分析通過分析單條轉(zhuǎn)發(fā)量/評論量大的的微博,從而得到關(guān)于該微博的傳播路徑、意見領(lǐng)袖、用戶畫像和微博營銷傳播質(zhì)量等。
下面貼一張大圖讓大家感受下:
微博傳播分析的部分功能
限于篇幅,這部分筆者就不詳述了,請參看筆者之前的文章:《【數(shù)據(jù)運營】揭開微博轉(zhuǎn)發(fā)傳播的規(guī)律:以“人民日報”發(fā)布的G20文藝晚會微博為例》。
4?可視化工具
俗話說:“文不如字,字不如表,表不如圖”,一張富含信息量且外觀時尚靚麗的圖會給文章增色不少,會激起讀者的好奇心,不知不覺的去圖片中探尋信息,從而讓文章的可讀性大大增加,易于傳播。比如這張圖:
人人都是產(chǎn)品經(jīng)理網(wǎng)站“產(chǎn)品經(jīng)理”專欄所有文章標(biāo)題制成的詞云
怎么樣,想學(xué)了吧?
不急,這個其實很簡單,下面我將以實例詳細(xì)的講解制作這張圖的步驟,即使是小白的你,也能做出這樣精美的個性化詞云。
4.1 個性化詞云制作
我把個性化詞云的制作分為3個步驟,即抓取數(shù)據(jù)、文本處理和詞云制作,詳見下圖:
個性化詞云制作的步驟
4.1.1 數(shù)據(jù)獲取
從本質(zhì)上講,詞云是反映某一特定主題的文本數(shù)據(jù)的可視化展示。比如,上面的喬幫主詞云反映的就是“產(chǎn)品經(jīng)理”專欄中較為熱門的關(guān)鍵詞/話題。所以,要制作一個“出彩”且有內(nèi)涵的自定義詞云,文本不能無規(guī)律,需要定向的獲取特定的文本數(shù)據(jù)。
筆者對前不久上映且廣受好評的電影《你的名字》頗感興趣,想分析一下這部電影的市場反響如何,先聊聊這部分?jǐn)?shù)據(jù)的獲取。
對于影片的分析,首選當(dāng)然是豆瓣電影,因為它是國內(nèi)最具有參考價值的影評網(wǎng)站,從文本中能得到很有價值和有意思的信息。但考慮到文本數(shù)據(jù)獲取的難易程度,我先介紹如下3個數(shù)據(jù)獲取的方法:
(1)自己編寫爬蟲,想要什么數(shù)據(jù)就去抓取什么數(shù)據(jù),既經(jīng)濟(用爬蟲工具會花錢),又會增加“自己動手,豐衣足食”的成就感,最重要的是,略施小計就可以躲避豆瓣的封IP機制。
用python編寫爬蟲抓取豆瓣影評數(shù)據(jù)
(2)利用集搜客這樣的爬蟲軟件去抓取數(shù)據(jù),不需要編程技術(shù),且簡單易上手,但是可能會被封IP。
(3)采用新浪微熱點這個大數(shù)據(jù)工具,因而不用豆瓣的評論數(shù)據(jù),在互聯(lián)網(wǎng)上進行全網(wǎng)信息搜集,獲取有關(guān)該影片的熱門文章標(biāo)題作為分析的文本數(shù)據(jù),這種方法是三種中最為輕松簡單的,而且獲取的是全網(wǎng)的數(shù)據(jù),大家可以有選擇性的選取自己需要的數(shù)據(jù),操作步驟如下圖所示:
用新浪微熱點獲取文本數(shù)據(jù)
因為最近學(xué)了點Python,故筆者選擇了用Python編寫爬蟲來獲取了豆瓣這部分的影評數(shù)據(jù)。
獲取《你的名字》豆瓣電影的影評數(shù)據(jù)
抓取后的數(shù)據(jù)整理成如下表格:
保存到本地的《你的名字》豆瓣影評數(shù)據(jù)
接下來,就是把文本數(shù)據(jù)單獨取下來咯,全選“評論內(nèi)容”這一列,把這些影評數(shù)據(jù)占到記事本上,作為接下來分析的“原材料”。
4.1.2 文本處理
一般情況下,文本數(shù)據(jù)的處理包含很多方面,如分詞、詞性標(biāo)注、詞頻統(tǒng)計、文本分類、情感分析、關(guān)鍵詞提取、文本摘要提取等。
在這里,制作詞云只需要考慮關(guān)鍵詞提取和詞頻統(tǒng)計這兩個板塊。
這里使用到的工具是前面提及的熱詞分析工具—文本挖掘工具。將《你的名字》豆瓣評論的文本部分粘貼到上圖中左邊的文本框中,再點擊右上方的“分析出圖”,系統(tǒng)顯示完成后,右邊的預(yù)設(shè)詞云會發(fā)生變化,此時點擊“導(dǎo)出”,即可得到詞頻的csv文件。
經(jīng)文本挖掘工具處理得到的詞頻csv文件
這里去除詞語和詞頻兩列,用來進行接下來的詞云制作。
4.1.3 詞云制作
處理詞云,筆者用到的工具是Tagul(現(xiàn)更名為Wordart)。下面是它的的主頁展示:
Tagul主頁
(1)詞頻載入格式
在頁面左上方的“Words”處,就是加載詞語及詞頻的地方,這里需要注意一下它的載入格式。,如下表所示:
Tagul的詞頻載入格式
上表中,前兩列的“Word”和“Weight”就是剛才經(jīng)處理過的詞語和詞頻,Color一欄則是設(shè)置該詞語的顏色,這是個性化詞云中很關(guān)鍵的一個要素,會直接影響到最終的詞云呈現(xiàn)效果。這里可以不填寫,那么在形成詞云時默認(rèn)隨機生成顏色。如果要形成定制化的顏色,則需要設(shè)置采用16進制的色值,以下是常用的顏色代碼表,即色值表。
常用的16進制色值表
與此類似,字體也可選可不選,需要定制的話,則可進行相應(yīng)的設(shè)置。
“Repeat”這項則表示該詞語是否會重復(fù)出現(xiàn),填寫“0”,則表示不重復(fù),填寫“1”,則表示重復(fù)。為了保持信息的精準(zhǔn)度,減少噪聲,一般選擇填寫“0”。
后面的URL鏈接就忽略了,因為有前面的設(shè)置,就不需要進行網(wǎng)頁鏈接。
按照上述操作,出詞語和詞頻兩例外,筆者還定制了“Color”和“Repeat”這兩項,結(jié)果顯示如下。
最終的詞語載入表
全選該表格的文字部分,將其粘貼到“Import Words”的文本框里,進行保存。
(2)載入中文字體
因為Tagul是老外做的一個在線詞云制作網(wǎng)站,所以Tagul不支持中文,這需要我們載入能支持中文顯示的字體,如下圖所示,筆者載入的是“You Yuan(幼圓)”字體。
載入中文字體
(3)處理背景圖片
加載了字體,可以說這是個性化詞云制作的核心部分,詞云最終效果的美與不美就在此一舉。
值得注意的是,在載入圖片之前的圖片選取步驟時,需要選擇背景和主題對比比較明顯的圖片。從接下來的圖片預(yù)處理過程中,你會發(fā)現(xiàn)這一點的重要性。
詞云自定義圖片的初始狀態(tài)
筆者選取的是《你的名字》最為標(biāo)志性的一張海報,看起來很有感覺:既有男女主角的形象,也交代了他們所處的生活環(huán)境,中間則是影片中重要的提條線索—彗星。這張圖初始狀態(tài)看似雜亂,不好處理,但仔細(xì)觀察,可以發(fā)現(xiàn)主體(男女主角)和背景(天空、城市和彗星)之間的對比度和色相差異還是很明顯的。在Tagul的“Custom Shape”的設(shè)置中可以進一步處理背景和主體之間的對比度問題。
在“Shapes”處載入圖片后,點擊上載成功后圖片的右下角“齒輪”,打開圖片預(yù)處理。其中,“Threshold”處理景深,可以拉開/縮小背景和主體之間的差異;“Edges”則是處理主體輪廓的銳度,可以調(diào)節(jié)圖片的清晰程度模糊程度。這里的要點是—淡化背景,清晰主體輪廓。
淡化背景,強化主體輪廓
好了,完成上面繁瑣的步驟之后,現(xiàn)在是見證奇跡的時刻了,點擊右上方大大的黑體字“Visualize”,待進度條加載完畢后,即可得到如下的最終效果圖:
最終的詞云效果圖
4.2?網(wǎng)絡(luò)可視化利器— Gephi
Gephi是一款開源免費跨平臺基于JVM的復(fù)雜網(wǎng)絡(luò)分析軟件, 其主要用于各種網(wǎng)絡(luò)和復(fù)雜系統(tǒng),動態(tài)和分層圖的交互可視化與探測開源工具,下載地址為https://gephi.org/。網(wǎng)上目前比較權(quán)威的Gephi教程是在Udemy上的Ooof liu講解的《Gephi中文教程》,地址為https://www.udemy.com/gephi/,看完這個部分仍有饒有興趣的小伙伴可以去學(xué)習(xí)下。
下面是由Gephi制作的各種網(wǎng)絡(luò)圖,這些圖不僅包含了豐富的信息量,而且極富美感,在吸引眼球的同時還給予我們有意義的信息。
各種由Gephi制成的網(wǎng)絡(luò)圖
Gephi是一款信息數(shù)據(jù)可視化利器,它的一般應(yīng)用場景如下:
- 探索性數(shù)據(jù)分析
- 鏈接分析
- 語義網(wǎng)絡(luò)分析
- 社交網(wǎng)絡(luò)分析
- 生物網(wǎng)絡(luò)分析
以下簡單介紹下它的使用方法。
在操作下面步驟之前,先去Gephi官網(wǎng)上下載最新版的0.9.1 version,這是免費的,且支持中文,還有豐富的插件下載,這簡直是數(shù)據(jù)可視化愛好者的福音!
值得注意的是,這款軟件是用Java編寫的,所以需要安裝Java環(huán)境,這個有點磨人。演與演員的關(guān)系作為分析對象,來詳細(xì)解讀如何制作一個“秀外慧中”的社交網(wǎng)絡(luò)可視化圖譜。
4.2.1 制作源數(shù)據(jù)
Gephi的源數(shù)據(jù)可以在excel中完成。在excel中,僅輸入2列即可,表頭嚴(yán)格按照Gephi的格式來制作,第一列為“Source”,第二列為”Target”。下面以豆瓣上評分6以下的國內(nèi)電影的導(dǎo)演(選取的是張藝謀、陳凱歌、馮小剛等大家耳熟能詳?shù)膶?dǎo)演,演員隨之確定)和演員關(guān)系表為例,做成如下格式:
在Excel上編輯Gephi的源數(shù)據(jù)
做好源數(shù)據(jù)之后,記得保存為CSV格式,Gephi僅能讀取這種格式的數(shù)據(jù)。
4.2.2 導(dǎo)入數(shù)據(jù)
在導(dǎo)入數(shù)據(jù)時,分別在“分隔符”、“如表格”、“格式”這三個選項下選擇“逗號”、“邊表格”、“GBK”。接下來點擊“下一步”,完成數(shù)據(jù)的導(dǎo)入。
在Gephi中導(dǎo)入csv數(shù)據(jù)
4.2.3 調(diào)整網(wǎng)絡(luò)布局
剛打開“圖”,也就是網(wǎng)絡(luò)圖的圖形界面時,這幾百個節(jié)點“蝸居”成一團,有點盤古開天辟地前“渾沌如雞子”的感覺,但這個模樣離我們心中的審美還有很長一段距離呢。
初始狀態(tài)的網(wǎng)絡(luò)圖
不過,不用著急,下面幾個簡單的步驟就能讓它“脫胎換骨”,完成華麗的變身。
在左上方的“布局”欄目中,選擇其中的任一算法,并可以在下方的操作界面修改默認(rèn)算法參數(shù),也可使用默認(rèn)的參數(shù)。單擊圖中運行按鈕,布局算法生效。
選擇“布局”中的算法
選擇不同的“布局”算法,網(wǎng)絡(luò)圖的形態(tài)就會有相應(yīng)的變化,以下是其中最為典型的集中算法及其拓?fù)鋱D。
各種“布局”算法的網(wǎng)絡(luò)圖拓?fù)湫螒B(tài)
在這里,筆者選取由“Frunchterman Reingold”算法確定的呈蒲公英花朵狀的結(jié)構(gòu)作為初始形態(tài)。
網(wǎng)絡(luò)布局做好后,我們完成了這個網(wǎng)絡(luò)圖的“骨架”搭建,下一步則需要對它的外表進行修飾,包括節(jié)點、邊和背景等部分的美化。
4.2.4 美化
在這里,我們可以對網(wǎng)絡(luò)圖進行“美容”,給它著上靚麗的顏色和合適的背景作為襯托。
如下圖所示,我們可以在“外觀”一欄對節(jié)點和邊進行著色,然后在下方選擇合適的背景,要注意節(jié)點、邊和背景之間的色差和對比。
給節(jié)點、邊和背景選擇合適的顏色
還需要注意一點,沿著“外觀”>“節(jié)點”>”數(shù)值設(shè)定”這一路徑,讓節(jié)點根據(jù)連接數(shù)的多少而顯示相應(yīng)的大小,使該網(wǎng)絡(luò)圖更有層次感;同理,可以對邊進行類似的設(shè)定,則兩個聯(lián)系緊密的節(jié)點間的邊將變得更寬。
經(jīng)過調(diào)整后,可以得到如下的網(wǎng)絡(luò)圖。
顏色調(diào)整后的效果圖
4.2.5 顯示標(biāo)簽
經(jīng)過上述幾個操作步驟之后,網(wǎng)絡(luò)圖還需要加入最為重要的一項內(nèi)容—標(biāo)簽,也就是前面提及的導(dǎo)演及演員的姓名,反映在節(jié)點上,由此完成他們之間的社交網(wǎng)絡(luò)圖的基本繪制。
沿著“窗口”>“預(yù)覽設(shè)置”的路徑,打開“預(yù)覽設(shè)置”,界面顯示如下。其中,需要在“節(jié)點標(biāo)簽”這部分完成字體的選擇,把默認(rèn)的西文字體變?yōu)橹形淖煮w。除此之外,此處還可以進行邊框、字體大小、顏色、透明度等的設(shè)置。
在“預(yù)覽設(shè)置”中設(shè)置中文字體
完成上述選項后,還需要在軟件界面的下方,點擊一下左下角那個大大的“T”,則節(jié)點標(biāo)簽就會顯現(xiàn),旁邊也有些字體調(diào)節(jié)鈕,大家可以摸索下。
在“布局”中,選擇“標(biāo)簽調(diào)整”算法,得到下圖:
最終效果圖
圖中各個節(jié)點的字體隨節(jié)點的重要性(由度、連入度或連出度確定)而呈現(xiàn)出不同之大小。所以,大家先看文字,了解其中最為突出的一些演員和導(dǎo)演,其次在看他們之間的關(guān)系。
筆者比較懶,這個網(wǎng)絡(luò)圖其實還可以進行更深入的優(yōu)化的,有興趣的小伙伴可以嘗試著做得更絢麗一些。
4.3?數(shù)據(jù)地圖
數(shù)據(jù)地圖,在Excel2013版及以上中都有三維地圖,還有一些BI工具中也集成了這個模塊,當(dāng)然也有專業(yè)的地圖GIS軟件,如地圖慧、智圖等。由于筆者之前寫過一篇關(guān)于數(shù)據(jù)地圖如何運用的文章,在此不再贅述,詳見《運營實操|15分鐘學(xué)會數(shù)據(jù)地圖分析》。
好了,上面的工具部分介紹完畢,該進入最終的收尾階段了。在某種意義上講,上面介紹的若干工具都是為接下來的“數(shù)據(jù)新聞”部分做準(zhǔn)備—它們是數(shù)據(jù)新聞中不可獲取的一部分,是數(shù)據(jù)新聞內(nèi)容呈現(xiàn)的重要“武器”。
5?數(shù)據(jù)新聞
在正式介紹數(shù)據(jù)新聞之前,筆者先聊聊,為什么需要數(shù)據(jù)新聞這種新型的新聞報道方式。
這里,筆者引用美國Northwestern University人文與社科學(xué)院的Prof BrianKeegan的一段話作為注解:
“在當(dāng)代,對于信息過載,以及恐懼、不確定性和懷疑等情緒的焦慮氛圍下,數(shù)據(jù)驅(qū)動的新聞可以起到關(guān)鍵性的作用。它們可以為關(guān)于政策、經(jīng)濟趨勢、社會變革的討論提供更為堅實的經(jīng)驗基礎(chǔ)?!?/p>
由此可見,信息過載、信息失真和現(xiàn)實世界廣泛存在的不確定性,導(dǎo)致人們不再相信沒有充分依據(jù)的信息,因而數(shù)據(jù)新聞這種更有說服力的信息載體呼之欲出。
5.1?數(shù)據(jù)新聞簡介
數(shù)據(jù)新聞,又叫數(shù)據(jù)驅(qū)動新聞。是指基于數(shù)據(jù)的抓取、挖掘、統(tǒng)計、分析和可視化呈現(xiàn)的新型新聞報道方式。它致力于從海量數(shù)據(jù)中發(fā)現(xiàn)新聞線索,或是抓取大量數(shù)據(jù)拓展既有新聞主題的廣度與深度,最后依靠可視化技術(shù)將經(jīng)過過濾后的數(shù)據(jù)進行融合,以形象化、藝術(shù)化的方式加以呈現(xiàn),致力于為讀者提供客觀、系統(tǒng)的報道以及良好的閱讀體驗。
目前,在大數(shù)據(jù)新聞制作上已經(jīng)積累了經(jīng)驗的國際媒體有《衛(wèi)報》《紐約時報》《華盛頓郵報》等。
以下是常見的數(shù)據(jù)新聞呈現(xiàn)方式:
不同類型的數(shù)據(jù)新聞
需要注意的是,數(shù)據(jù)新聞不一定非得要復(fù)雜的數(shù)據(jù)來呈現(xiàn)事實,表現(xiàn)出很高的逼格。在很多時候,簡單的描述性數(shù)據(jù)即可,就像下面的一個示例一樣,數(shù)據(jù)圖表的呈現(xiàn)讓讀者更加清晰、直觀的了解到西藏班在“量”和“質(zhì)”上的變遷,是“綠葉”,而內(nèi)地西藏班的整個發(fā)展歷程才是真正的“紅花”,是該報道的主線。
一張圖讀懂“內(nèi)地西藏班”
5.2?數(shù)據(jù)新聞的形式
一般情況下,數(shù)據(jù)新聞有如下3種形式:
5.2.1 新聞敘事
數(shù)據(jù)新聞體系下的新聞敘事講求客觀理性和邏輯性,從數(shù)據(jù)視角來看待事件與社會話題的方方面面,加之以形象具體的可視化圖表作為最后的呈現(xiàn)方式,使讀者對內(nèi)容的真實性和價值性產(chǎn)生信任。
以下是標(biāo)題為《23萬投票紀(jì)錄 回顧第五屆香港立法會》的數(shù)據(jù)新聞,下面選取了該文中一些具有代表性的數(shù)據(jù)圖示。
《23萬投票紀(jì)錄 回顧第五屆香港立法會》數(shù)據(jù)新聞中的一些圖示
從上圖中,在運用數(shù)據(jù)圖示的同時,借助數(shù)據(jù)分析的方法,從多維度總結(jié)了議員的投票行為。這種基于數(shù)據(jù)的的表達,比起單純的文字報道來,表現(xiàn)清晰,說服力強。
5.2.2 事實判斷
一個孤立的事件當(dāng)中的少量信息往往缺少關(guān)聯(lián)度,但如果從正確的角度觀察卻能發(fā)現(xiàn)極為重要的價值。透過數(shù)據(jù),內(nèi)容運營者可以發(fā)現(xiàn)僅憑知覺和傳聞難以感知的、隱藏在事件/新聞背后線索或假設(shè),抽絲剝繭、言之鑿鑿的把事件的來龍去脈和其中緣由講述透徹。
2016年7月25號在DT財經(jīng)上有一篇文章,文章標(biāo)題為《10萬條掛號大數(shù)據(jù)顯示:互聯(lián)網(wǎng)也救不了看病難》,文章中全篇引用了掛號網(wǎng)各個維度的一手10W數(shù)據(jù)。采用循序漸進的邏輯描述并分析看病難互聯(lián)網(wǎng)也很難解決這一難題。重要的是,作者將這些數(shù)據(jù)制作成可視化的數(shù)據(jù)圖表,從掛號網(wǎng)注冊醫(yī)院分布、支持網(wǎng)絡(luò)預(yù)約功能的醫(yī)院占比到預(yù)約掛號量超10萬的醫(yī)院和人數(shù)分布情況,最后到患者參與分享的比例及對候診時間的滿意度分析,將這些數(shù)據(jù)轉(zhuǎn)化為數(shù)據(jù)地圖、點狀圖、旋風(fēng)圖和趣味條形圖等可視化形式呈現(xiàn)出來。
《10萬條掛號大數(shù)據(jù)顯示:互聯(lián)網(wǎng)也救不了看病難》中的可視化圖表
從這個例子可以看出,數(shù)據(jù)新聞的報道方式能夠在宏觀上對某個事件看得更加清楚與全面,事件復(fù)雜的演進過程以及這個過程中的各個方面,都能描述得直觀且有趣,最重要的是,很能讓異見者服氣。
5.2.3 預(yù)測走向
通過數(shù)據(jù)的挖掘和分析,尋找出有價值的相關(guān)性,繼而增加對相關(guān)事件發(fā)展趨勢的預(yù)測性,新聞和數(shù)據(jù)相結(jié)合創(chuàng)作出精確和深度報道,成為大數(shù)據(jù)時代的新聞業(yè)務(wù)發(fā)展方向。
下圖是CNN在今年7月份關(guān)于美國總統(tǒng)大選預(yù)測的數(shù)據(jù)新聞,全篇大篇幅的介紹了當(dāng)下美國社交媒體上各州對候選人的支持情況、通過復(fù)雜算法得出的候選人各州獲勝的概率以及哪個州對于總統(tǒng)選舉具有決定性意義等。
CNN在2016年7月份關(guān)于美國總統(tǒng)大選的預(yù)測(局部)
5.3?如何成為一個優(yōu)秀的數(shù)據(jù)新聞內(nèi)容運營者
數(shù)據(jù)新聞學(xué)是一門交叉的學(xué)科,數(shù)據(jù)新聞的產(chǎn)生給傳統(tǒng)的新聞工作者提出了挑戰(zhàn),傳統(tǒng)的新聞創(chuàng)作理念和方式,要求新聞工作者具備采寫編評等基本專業(yè)技能,但目前已無法滿足大數(shù)據(jù)時代下數(shù)據(jù)新聞的創(chuàng)作。
要做好數(shù)據(jù)新聞,需要運營者著重提升以下4個方面的素養(yǎng)/能力:
5.3.1?敏銳的數(shù)據(jù)洞察力
數(shù)據(jù)新聞需要大量的數(shù)據(jù)、數(shù)據(jù)分析處理,不僅僅是要有技術(shù)水平,更需要一雙慧眼,分得清“真數(shù)據(jù)”和“假數(shù)據(jù)”,而且還要選擇重要的數(shù)據(jù)和信息進行內(nèi)容輸出,為受眾提供更細(xì)致、精確的事件分析,又快又準(zhǔn)的報道新聞,數(shù)據(jù)新聞的把關(guān)在數(shù)據(jù)時代更為重要。
媒體工作者需多渠道的收集數(shù)據(jù)。從公開的數(shù)據(jù)庫或者是政府部門、企業(yè)、機構(gòu)中獲取數(shù)據(jù),從這些海量信息中判斷和選擇有表現(xiàn)力的數(shù)據(jù)。當(dāng)媒體工作者獲取數(shù)據(jù)之后,便開始處理和整合數(shù)據(jù)。將與新聞報道無關(guān)的數(shù)據(jù)篩選、過濾后,剩下有用的數(shù)據(jù)進行整合匯編,形成新的報道內(nèi)容。
新聞工作者通過數(shù)據(jù)的挖掘和分析,尋找出有價值的相關(guān)性,繼而增加對相關(guān)事件發(fā)展趨勢的預(yù)測性,新聞和數(shù)據(jù)相結(jié)合創(chuàng)作出精確和深度報道,成為大數(shù)據(jù)時代的新聞業(yè)務(wù)發(fā)展方向。
5.3.2?熟練運用計算機能力
在如今信息爆炸的大數(shù)據(jù)時代,特別是社交網(wǎng)絡(luò)、電子商務(wù)與移動通信把人類社會帶入了一個以“PB”(1024TB)為單位的結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù)信息的新時代。大量的數(shù)據(jù)和信息擺在新聞工作者面前,傳統(tǒng)的計算機無法處理大量的、無規(guī)律的數(shù)據(jù),需要云計算進行分析、處理、統(tǒng)計。
因此,對于當(dāng)今的新聞工作者提出了更高的要求,必須熟練運用計算機,掌握一門編程語言。如果之前沒有編程基礎(chǔ),推薦python,它的設(shè)計哲學(xué)是“優(yōu)雅”、“明確”、“簡單”,掌握一些常用的爬蟲包、數(shù)據(jù)分析及可視化包以及自然語言處理包,就能很好的將大量的數(shù)據(jù)和信息進行友好的呈現(xiàn)。
5.3.3?分析處理數(shù)據(jù)能力
數(shù)據(jù)新聞與傳統(tǒng)的文字圖片新聞不一樣,數(shù)據(jù)新聞需要大量的數(shù)據(jù),新聞工作者可以通過數(shù)據(jù)發(fā)現(xiàn)問題、提出問題,也可以先有了問題之后,再去收集相關(guān)的數(shù)據(jù)。而擁有大量數(shù)據(jù)后,必須對其進行分析和處理,將不需要或不相關(guān)的數(shù)據(jù)過濾掉,剩下有價值的數(shù)據(jù)加以分析整合,供新聞編輯使用。德勤在美國華盛頓特區(qū)的研發(fā)創(chuàng)新團隊招聘數(shù)據(jù)記者,其中最重要的要求就是要具備分析數(shù)據(jù)的能力,由此可見,數(shù)據(jù)新聞記者必須具備較強的數(shù)據(jù)分析和處理的能力,才能勝任此工作。
5.3.4?可視化平面設(shè)計能力
數(shù)據(jù)新聞的可視化表達為新聞行業(yè)注入了一股新鮮的血液,讓數(shù)據(jù)新聞充滿希望與活力。數(shù)據(jù)新聞的可視化圖片將不同的時間和空間聯(lián)系在一起,將繁雜的數(shù)據(jù)簡單化,便于受眾理解,更有利于受眾參與其中,滿足不同受眾的各方面需求。數(shù)據(jù)新聞的可視化是其一大特點,因此對于新聞工作者來說,應(yīng)熟練掌握可視化技術(shù),學(xué)會識圖制圖以及各種表格的制作。
最后,筆者介紹一個數(shù)據(jù)新聞的資料庫,在這里小伙伴們可以看到國內(nèi)外許多優(yōu)秀的數(shù)據(jù)新聞案例,要做優(yōu)秀的數(shù)據(jù)新聞制作者,首先從模仿學(xué)習(xí)做起。
新華網(wǎng)數(shù)據(jù)新聞信息庫鏈接地址:http://djchina.org/showcase/
好了,看到這里的小伙伴,我?guī)缀蹩梢詳喽ㄊ钦鎼哿?,希望你們能掌握好這些“工具”,成為運營領(lǐng)域的“增長黑客”,不必羨慕什么“技術(shù)流”,因為創(chuàng)造性思維和強烈的好奇心會給你帶來好運的,等到工具、技能和思維三者融會貫通的時候,就會像獨孤求敗那樣:
“不滯於物,飛花草木皆可傷人,草木竹石均可為劍”!
參考資料
- 范冰,《增長黑客》
- 新浪微熱點官網(wǎng)官方介紹
- NLPIR在線系統(tǒng)官方介紹
- IBM Watson?Tone?Analyzer官方文檔
- 百度百科“數(shù)據(jù)新聞”詞條
- CNN在2016.07美國總統(tǒng)大選預(yù)測網(wǎng)站
- FT數(shù)據(jù)新聞網(wǎng)
#專欄作家#
蘇格蘭折耳喵,微信公眾號:運營喵是怎樣煉成的,人人都是產(chǎn)品經(jīng)理專欄作家。數(shù)據(jù)分析愛好者,擅長數(shù)據(jù)分析和可視化表達,喜歡研究各種跟數(shù)據(jù)相關(guān)的東東。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
看了兩遍,真贊?。?/p>
先收藏 再看看
有適合新手的嗎,看不太懂
牛逼的不行
文本挖掘工具的鏈接不對 ??
你得登錄
老哥,牛逼了,瘋狂為你打電話啊
??
數(shù)碼寶貝里的不叫小精靈……
是不叫這個,這是我叫的,準(zhǔn)確的來說,應(yīng)該打上雙引號。哈哈哈
感謝分享
是我是我還是我,居然看到快10點了。給大佬獻上我的膝蓋 ??
勤奮好學(xué),終有所成~為你點個贊??
感謝分享
感謝分享,邊看邊操作的,成功做出來了詞云,還有好多內(nèi)容不會,慢慢吸收
練中學(xué),干中會,設(shè)這個理兒! ??
收集的真全,再給你推薦個 DataExa
這個產(chǎn)品太貴且申請麻煩,我分享的都是觸手可及或是免費的工具。
牛逼的不要不要的
好難吸收! ?
邊看邊操作,慢慢會吸收的
寫的不錯 ??
太有收獲了,厲害呀前輩,膜拜
喵~! ?? 很不錯哦。
沒有比工具更干貨的東西
嗯,工具是手和大腦的延伸,能干很多我們干不了的事情
厲害了,還有個工具Tableau,做可視化很不錯的
那是BI了,要花銀子的
好的
不是在這里獲取嗎??
清晰文檔
我對新浪微輿情熱點趨勢預(yù)測那塊很感興趣,試了下,果然像喵哥說的那樣,能研判事件的走向,牛?。?!
靈活運用工具很重要,我說的這些用法官方說明里可沒有哦 ??
圖悅之前有用過,當(dāng)時覺得有局限性且詞云效果不好,不夠美觀,所以棄了;百度指數(shù)倒是經(jīng)常使用,可以看到關(guān)鍵詞的搜索規(guī)模情況及漲跌態(tài)勢,不過樓主介紹的新浪微輿情的最突出的峰值節(jié)點的重點信息聚類不錯;其實新浪微輿情我也一直有在用它的信息監(jiān)測還有事件分析功能,感覺非常好用,比較專業(yè),其他功能后面陸續(xù)還會試用。總之,拜讀完文章受益匪淺,小工具都非常實用,樓主辛苦了,感謝!
能幫到大家,吾心足矣! ??
微輿情的這個趨勢預(yù)測功能真的蠻強大的,對于新媒體運營很有幫助。
工具是死的,人是活的,會用就能發(fā)揮出奇效 ??
??
??