數(shù)據(jù)運(yùn)營|數(shù)據(jù)分析中,文本分析遠(yuǎn)比數(shù)值型分析重要!(上)

4 評論 60723 瀏覽 243 收藏 19 分鐘

本文從業(yè)務(wù)的角度來談?wù)劵诖髷?shù)據(jù)的文本分析及其在商業(yè)場景中的應(yīng)用,正文會附上一些實(shí)例及開放的工具,力求讓理論落地,服務(wù)于實(shí)踐。大數(shù)據(jù)離我們越來越近,從事數(shù)據(jù)運(yùn)營的小伙伴們,你準(zhǔn)備好了嗎?

本文是《數(shù)據(jù)分析中,文本分析遠(yuǎn)比數(shù)值型分析重要!》的上篇,聊的是文本分析的一些基本知識,下篇將以一個實(shí)際案例來聊聊基于大數(shù)據(jù)的文本分析是如何應(yīng)用在商業(yè)場景中的。

1.我們?nèi)粘K斫獾摹皵?shù)據(jù)分析”

在我們?nèi)粘5漠a(chǎn)品和運(yùn)營工作中,經(jīng)常接觸的數(shù)據(jù)分析方法、形式絕大部分是基于對數(shù)字(值)的描述性分析,如銷量情況、用戶增長情況、留存情況和轉(zhuǎn)化情況等,高級一些的數(shù)據(jù)分析方法有因子分析、聚類分析和回歸分析等方法,見下圖:

圖片1

常用的數(shù)據(jù)分析方法/形式

這些分析方法/形式有一個共同點(diǎn):都是跟數(shù)字在打交道,說的專業(yè)一點(diǎn),就是基于對結(jié)構(gòu)性數(shù)據(jù)(即行數(shù)據(jù),存儲在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù))的分析,比如姓名、性別、年齡這些信息,以Word、Excel等形式呈現(xiàn)的數(shù)據(jù)。這種類別的數(shù)據(jù)比較好處理,只要簡單的建立一個對應(yīng)的表就可以了。

圖片2

典型的結(jié)構(gòu)性數(shù)據(jù)表格

然而,數(shù)據(jù)分析僅僅只有這一種類型嗎?答案當(dāng)然是:NO!

一個完整而清晰的數(shù)據(jù)分析過程,除了在范圍上,要進(jìn)行宏觀和微觀的分析外,還需要在分析的層次上有所遞進(jìn)和深入,以下是我們進(jìn)行數(shù)據(jù)分析時常會考慮到7個維度,見下圖:

圖片3

數(shù)據(jù)分析的7個維度(來源:《誰說菜鳥不會數(shù)據(jù)分析(工具篇)》)

在上圖中,對數(shù)值型數(shù)據(jù)的分析能覆蓋絕大部分的維度,但它更多的是描述事物的表層現(xiàn)象,主要是在事物的“量”上進(jìn)行描述。也就是說,對數(shù)值型數(shù)據(jù)的分析并不能回答其中最為重要的一個維度——“Why”,但在產(chǎn)品和運(yùn)營的實(shí)際工作中,發(fā)掘出用戶的喜好、購買/使用及流失的內(nèi)在原因(也就是洞察用戶的行為動機(jī)),對我們的工作至關(guān)重要,它會直接影響產(chǎn)品的功能設(shè)定和運(yùn)營策略。

這時,對非結(jié)構(gòu)性數(shù)據(jù)進(jìn)行分析的需求呼之欲出。

據(jù)國際數(shù)據(jù)公司(IDC)的在2011年的調(diào)查顯示,在今后十年里,非結(jié)構(gòu)化數(shù)據(jù)將占所有產(chǎn)生的互聯(lián)網(wǎng)數(shù)據(jù)的90%。而作為一個尚未得到充分開發(fā)的“信息金礦”,非結(jié)構(gòu)化數(shù)據(jù)分析可以揭示出,我們之前所認(rèn)為的異常復(fù)雜、且難以捉摸的諸多商業(yè)驅(qū)動因素間的重要相關(guān)關(guān)系。

所以,我們有必要對非結(jié)構(gòu)性數(shù)據(jù)引起高度重視?。?!

先等等,什么是非結(jié)構(gòu)性數(shù)據(jù)呢?

2.什么是文本分析?

非結(jié)構(gòu)性數(shù)據(jù)是與結(jié)構(gòu)性數(shù)據(jù)相對的一個概念,它包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等。

圖片4

非結(jié)構(gòu)性數(shù)據(jù)組成部分

本文所提及的非結(jié)構(gòu)性數(shù)據(jù)特指文本數(shù)據(jù),這里包括且不限于社交網(wǎng)絡(luò)(微博、微信、QQ和脈脈等)、客戶反饋(客戶抱怨郵件、社交媒體網(wǎng)站的帖子、開放式問卷調(diào)查、消費(fèi)者點(diǎn)評)新聞媒體、銷售人員的拜訪記錄等。

文本分析的目的在于從根本上把所有的非結(jié)構(gòu)化數(shù)據(jù)整合從而化為結(jié)構(gòu)化數(shù)據(jù),從之前被認(rèn)為難以量化的海量文本中抽取出大量有價值的、有意義的數(shù)據(jù)或信息。

所以,對文本數(shù)據(jù)進(jìn)行分析,我們能得到哪些有價值的商業(yè)線索或洞察呢?

3.基于大數(shù)據(jù)的文本分析的商業(yè)價值

文本數(shù)據(jù)來源異常廣泛且多樣,很多時候需要搜索海量的網(wǎng)頁。當(dāng)然,只有基于恒河沙數(shù)般體量的大數(shù)據(jù)文本分析,才有可能得出比較可靠、有說服力的商業(yè)insight。

所以,“文本分析”常常被冠以“大數(shù)據(jù)文本分析”的全名。

“文本分析”,或者“語義分析”通過分析海量的非結(jié)構(gòu)性的文本(信息)數(shù)據(jù),得出的不僅是關(guān)于“是什么”的描述性分析,更多的回答了“為什么”,即目標(biāo)用戶購買和使用產(chǎn)品的潛在動機(jī)/真實(shí)需求。

在商業(yè)實(shí)踐中,基于大數(shù)據(jù)的文本分析被廣泛應(yīng)用于各行各業(yè),利用認(rèn)知技術(shù)獲得全新的商業(yè)洞察,解決關(guān)鍵的知識性問題,這被IBM稱為“認(rèn)知商業(yè)”。例如企業(yè)可以從客戶關(guān)系數(shù)據(jù)、 社交網(wǎng)絡(luò)、 新聞網(wǎng)站和購物網(wǎng)站評論等渠道獲取文本數(shù)據(jù),進(jìn)而通過計算機(jī)進(jìn)行自然語言處理,從而揭示出在任何非結(jié)構(gòu)化文本信息中的“4W”要素,即人物(Who)、事件(What)、時間(When)、地點(diǎn)(Where)等,結(jié)合其中隱藏的“Why”進(jìn)行關(guān)聯(lián)分析,最終得到貫穿所有業(yè)務(wù)的全新層面的商業(yè)洞見。

圖片5

大數(shù)據(jù)文本分析提取出的主要維度

舉例來說,某個APP的用戶滿意度一段時間內(nèi)上升不少,可以從評論量中好評數(shù)量的增加以及服務(wù)評價幾顆星來看出,但這只是描述性的分析,并不能知道為什么用戶會給好評或差評,產(chǎn)品或服務(wù)的哪些方面會得到好評。

然而,借助大數(shù)據(jù)文本分析,我們通過提取出的“4W”要素獲得對用戶“Why”的理解:

  • 什么時候用戶的評論較正面,什么時候較負(fù)面(When)
  • 用戶所給的好評和差評分別集中在該APP的哪些方面(What)
  • 哪些人評論給差評,哪些人給好評,他們在用戶中的言論影響力如何(Who)
  • 哪些地區(qū)的用戶給好評/差評,這些地區(qū)的用戶分別注重該APP的哪些方面(Where、What)

簡而言之,基于大數(shù)據(jù)的文本分析能夠揭示出潛藏在文本信息當(dāng)中的趨勢和關(guān)聯(lián),為商業(yè)決策、行業(yè)趨勢研究和熱點(diǎn)內(nèi)容追蹤提供有力支持。

那接下來的問題是:我們要去哪里找這些非結(jié)構(gòu)性的文本數(shù)據(jù)呢?

4.這些有價值的海量文本數(shù)據(jù)“藏”在哪里?

社會化媒體時代,用戶在購買產(chǎn)品/服務(wù)前,使用中,或是使用之后,一般會在互聯(lián)網(wǎng)上表達(dá)自己的對產(chǎn)品的疑慮或看法,通過互聯(lián)網(wǎng)這個平臺表達(dá)社情民意,體現(xiàn)自身的真實(shí)意愿和產(chǎn)品/服務(wù)的體驗(yàn)感受等。

一般來說,用戶產(chǎn)生的有價值的“發(fā)聲”主要集中在如下6個 “場所”:

圖片6

大數(shù)據(jù)文本信息的來源

同時,在互聯(lián)網(wǎng)的產(chǎn)品和運(yùn)營工作中,我們需要重點(diǎn)瞄向社交媒體、電商平臺及APP應(yīng)用市場這3個用戶“言論集結(jié)地”,從上面獲取用戶對于產(chǎn)品/服務(wù)的“發(fā)聲”。

(1)社交媒體

社交媒體發(fā)展日益矚目,論壇、博客、微博、微信等社交網(wǎng)絡(luò)接踵而至,它們在悄無聲息中改變著我們的生活方式。

在交互性強(qiáng)、容易沉淀價值信息的網(wǎng)絡(luò)論壇上,網(wǎng)民們可以獲得各種信息服務(wù),同時可以發(fā)布信息、進(jìn)行討論、聊天,用發(fā)帖回帖來表達(dá)對事件、產(chǎn)品、品牌和企業(yè)的看法。

在容易爆發(fā)熱點(diǎn)話題的微博上,用戶除了會主動發(fā)布的微博外,還會主動追蹤熱點(diǎn)事件、喜愛的興趣頻道和明星的微博,轉(zhuǎn)發(fā)和評論這些微博。

在具有強(qiáng)關(guān)系屬性的微信上,用戶會對自己關(guān)注的公眾號發(fā)布的內(nèi)容進(jìn)行評論和轉(zhuǎn)發(fā),以此來表達(dá)自己的觀點(diǎn)和情緒……

在這個社會化的媒體時代,用戶成為企業(yè)最好的品牌推廣大使。如何從這些可觀的社交媒體數(shù)據(jù)中分析出用戶的潛在且準(zhǔn)確的購物意愿及用戶需求,將成為提高品牌價值和聲譽(yù),改善用戶體驗(yàn)的新興途徑。

例如,新浪微博上粉絲過萬的零售商,可以根據(jù)對某條轉(zhuǎn)發(fā)量極大的微博進(jìn)行傳播分析,從中挖掘出粉絲的性別、地域、關(guān)注的微話題、星座及興趣標(biāo)簽,為粉絲個性化的去推送優(yōu)惠及新品信息。

由此可見,這些看似龐大且無規(guī)則的社交數(shù)據(jù),往往包含著大量的用戶基本信息和興趣標(biāo)簽,它們是繪制用戶畫像的絕好素材。

(2)電子商務(wù)平臺

電子商務(wù)網(wǎng)站上的海量的用戶言論數(shù)據(jù)隱含著巨大的信息,這些網(wǎng)站包括且不限于淘寶網(wǎng)、京東商城、亞馬遜和大眾點(diǎn)評網(wǎng)等主流購物、服務(wù)平臺。

例如,亞馬遜上的用戶對某商品的評論,商家可以根據(jù)用戶的評論和反饋,為用戶提供定制性的服務(wù),甚至可以預(yù)測用戶的需求,從而達(dá)到更加準(zhǔn)確的銷售目的。

(3)其他第三方應(yīng)用市場

移動互聯(lián)網(wǎng)時代誕生了的APP,這些APP除了“掛”在自家的官方網(wǎng)站以外,更多的是分布于第三方應(yīng)用市場(如蘋果商店、91助手、豌豆莢、小米應(yīng)用市場、百度手機(jī)助手等),這時收集用戶的大量吐槽對于改善APP的用戶體驗(yàn)至關(guān)重要。通過對用戶大量評論的文本分析,我們可以第一時間了解到產(chǎn)品的哪些方面是用戶喜歡的,哪些方面是用戶比較嫌棄的,哪些是無關(guān)痛癢的“偽需求”,力求在短時間內(nèi)改善產(chǎn)品的功能與設(shè)計。

綜上所述,相關(guān)文本數(shù)據(jù)的來源多樣,而且覆蓋了非常廣泛的話題。任何和產(chǎn)品/服務(wù)相關(guān)的陳述和評論本質(zhì)上都是有用的信息,因?yàn)檫@些陳述可以讓產(chǎn)品/品牌所有者了解用戶的最真實(shí)的想法。

5.大數(shù)據(jù)文本分析的一些應(yīng)用場景

以上說的是大數(shù)據(jù)文本分析的一些原理、數(shù)據(jù)來源及其商業(yè)價值,現(xiàn)在筆者就從以下5點(diǎn)來談?wù)勊膶?shí)際應(yīng)用場景:

(1)開放式作答處理

大量問卷調(diào)研中的開放式問題的處理,這些開放式的問題以電子文檔的形式進(jìn)行存儲,使計算機(jī)進(jìn)行文本分析成為可能,可以在短時間內(nèi)從數(shù)以萬計的作答中提取出有價值的分析維度,獲得對(潛在)用戶的需求的洞察。

圖片7

從近萬份某3.15開放式問答題中提煉出的焦點(diǎn)話題

(2)內(nèi)容運(yùn)營優(yōu)化

捕捉優(yōu)秀作者的寫作風(fēng)格

對于一些初入新媒體運(yùn)營崗位的小伙伴來說,研究和模仿某些知名自媒體作者的寫作風(fēng)格很有必要,學(xué)習(xí)他們的寫作手法和套路可以使我們的文案寫作進(jìn)步神速。

要想對這些優(yōu)秀作者的行文風(fēng)格進(jìn)行深入研究,除了熟悉他們的行文脈絡(luò)和篇章結(jié)構(gòu),更要熟稔其遣詞造句上的套路(包括措辭特點(diǎn)、常用關(guān)鍵詞和情感傾向等),在模仿中逐步形成自己的寫作風(fēng)格。

如下圖,對咪蒙10幾篇具有代表性的文章進(jìn)行文本分析,從如下各種屬性的關(guān)鍵詞,再結(jié)合對咪蒙作品的一定了解,可以得出這樣的結(jié)論:咪蒙的文章里經(jīng)常進(jìn)行宣泄負(fù)面情緒,把粉絲心中想說卻不敢說的話酣暢淋漓的表達(dá)了出來,使萬千粉絲感同身受,被其感染;另一方面,她身邊的人常是被吐槽和分析的對象。

圖片8

對咪蒙10幾篇具有代表性文章進(jìn)行文本分析

新媒體熱點(diǎn)采集、追蹤及預(yù)測

基于大數(shù)據(jù)的文本分析能快速獲取全網(wǎng)具有趨勢傳播的關(guān)鍵詞,可以實(shí)時監(jiān)測傳播趨勢(包括全面研究閱讀數(shù)、評論數(shù)、分享量、傳播趨勢),并且通過分析內(nèi)容屬性和成功原因,預(yù)測內(nèi)容在未來的傳播潛力。

能夠嫻熟使用大數(shù)據(jù)的媒體人在未來的媒體行業(yè)才有立足之地,就如熱巢網(wǎng)CEO穆青所強(qiáng)調(diào)的:

在未來的媒體競爭中,媒體人需要轉(zhuǎn)型為“內(nèi)容+技術(shù)”的復(fù)合型人才,一方面發(fā)揮自己在內(nèi)容創(chuàng)作中基于人性的獨(dú)立判斷和分析,另一方面需要借助大數(shù)據(jù)分析技術(shù)提升文章的傳播效果,進(jìn)行科學(xué)的人工傳播干預(yù)。

(3)口碑管理

基于大數(shù)據(jù)的文本分析能快速準(zhǔn)確的識別出企業(yè)/品牌/產(chǎn)品自身及競爭對手在互聯(lián)網(wǎng)上的口碑變化,深度挖掘文本數(shù)據(jù)價值,在消費(fèi)者洞察、產(chǎn)品研發(fā)、運(yùn)營管理、市場營銷、品牌戰(zhàn)略方面,為管理決策提供科學(xué)依據(jù)。

圖片9

某餐飲品牌的口碑管理

(4)輿情監(jiān)測及分析

利用基于大數(shù)據(jù)的文本分析,我們可以清晰的知曉事件從始發(fā)到發(fā)酵期、發(fā)展期、高漲期、回落期和反饋期等階段的演變過程,分析輿情的傳播路徑、傳播節(jié)點(diǎn)、發(fā)展態(tài)勢和受眾反饋等情報。

圖片10

對滬文化廣播影視管理局的輿情監(jiān)測

(5)了解用戶反饋

通過基于大數(shù)據(jù)的文本分析,企業(yè)可以用正確的方式閱讀用戶散落在網(wǎng)絡(luò)上的“聲音”,企業(yè)可以直接讀懂自己用戶的想法,挖掘出用戶對于產(chǎn)品/服務(wù)的情緒和態(tài)度。比如,大數(shù)據(jù)文本分析可以回答如下問題:

  • 用戶喜歡的是它產(chǎn)品的哪一方面?
  • 比起其他公司的產(chǎn)品來,客戶是否更傾向他的產(chǎn)品?
  • 這些偏好會隨著時間發(fā)展和變化嗎?

本文偏向于科普大數(shù)據(jù)文本分析的基本知識,下一篇將用一個生動的案例來說明,大數(shù)據(jù)文本分析是如何在互聯(lián)網(wǎng)商業(yè)實(shí)踐中體現(xiàn)其巨大商業(yè)價值的。

 

作者:蘇格蘭折耳喵,微信公眾號:運(yùn)營喵是怎樣煉成的,個人微信:g18818233178),數(shù)據(jù)分析愛好者,擅長數(shù)據(jù)分析和可視化表達(dá),喜歡研究各種跟數(shù)據(jù)相關(guān)的東東。

本文由 @蘇格蘭折耳喵 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 老師好,這個文本分析用的什么工具啊

    來自廣東 回復(fù)
    1. 新浪微熱點(diǎn)

      來自上海 回復(fù)
  2. 偏向于挖需求??

    回復(fù)
  3. 666 ??

    來自北京 回復(fù)