關(guān)于文本輿情數(shù)據(jù)的6個(gè)分析方法

3 評(píng)論 93716 瀏覽 183 收藏 17 分鐘

用戶輿情信息包括文本、音頻、圖片等各種各樣的形式,在實(shí)際工作中,我們應(yīng)用較多的還是文本類的用戶輿情。綜合考慮數(shù)量、豐富性、易獲得性、信息匹配度等方面因素,文本之于音視頻、圖片而言的信息價(jià)值、性價(jià)比都是相對(duì)比較高的。

一、文本用戶輿情的價(jià)值

當(dāng)我們從電商、論壇、應(yīng)用市場(chǎng)、新聞媒介等渠道平臺(tái)取到大量和調(diào)研目標(biāo)相匹配的用戶輿情文本后,具體應(yīng)該如何應(yīng)用?其中可能包含哪些對(duì)用研有價(jià)值的內(nèi)容?可以通過(guò)什么方法提煉分析?能實(shí)現(xiàn)什么預(yù)期效果?根據(jù)以往項(xiàng)目經(jīng)驗(yàn),文本輿情分析的價(jià)值和具體應(yīng)用如下圖所示:

這些信息既描述說(shuō)明了“是什么”的問(wèn)題,也可以表明屬性、關(guān)系、喜好,說(shuō)明是“怎么樣”的,還能在一定程度上分析表象背后的原因,分析“為什么”,可以挖掘出包含其中的焦點(diǎn)、趨勢(shì)、關(guān)聯(lián),幫助我們了解產(chǎn)品的市場(chǎng)反饋和用戶需求,為方向聚焦、策略引導(dǎo)、價(jià)值判斷提供依據(jù)。

二、文本輿情數(shù)據(jù)的分析方法

分析文本輿情數(shù)據(jù),主要用到的是文本分析的方法。因?yàn)槲谋緮?shù)據(jù)是非結(jié)構(gòu)化的,拿到文本輿情之后的一個(gè)關(guān)鍵問(wèn)題是要把數(shù)據(jù)轉(zhuǎn)化為能被計(jì)算機(jī)理解和處理的結(jié)構(gòu)化數(shù)據(jù),然后才可能進(jìn)一步對(duì)用戶輿情數(shù)據(jù)進(jìn)行完整系統(tǒng)的處理分析,從無(wú)關(guān)冗余的數(shù)據(jù)中提煉出有意義的部分。

過(guò)程中需要用到的工具有:

  1. 數(shù)據(jù)爬蟲工具:可以根據(jù)我們的需要免費(fèi)從網(wǎng)站上爬取數(shù)據(jù)(在設(shè)有反爬蟲機(jī)制的渠道,獲取輿情數(shù)據(jù)的難度會(huì)增加)。
  2. 文本分析工具:通過(guò)分詞處理、詞頻分析、語(yǔ)義網(wǎng)絡(luò)分析等,挖掘潛藏其中的關(guān)鍵信息,把握深層的關(guān)系和結(jié)構(gòu)。根據(jù)筆者的實(shí)際使用經(jīng)驗(yàn),文本分析工具ROST的功能完善,在文本數(shù)據(jù)量不太大的情況下基本能滿足中文輿情分析的需要。如果對(duì)于文本分析結(jié)果有更高的要求,可使用Python、R等編程語(yǔ)言進(jìn)行處理。
  3. 文本數(shù)據(jù)可視化工具:使用工具將文本分析結(jié)果以可視化的形式(如詞云圖、語(yǔ)義網(wǎng)絡(luò)圖)呈現(xiàn)出來(lái),便于從中直觀的發(fā)現(xiàn)價(jià)值點(diǎn)。

1、數(shù)據(jù)爬蟲

明確輿情分析的目的和需求后,篩選數(shù)據(jù)來(lái)源渠道獲取用戶輿情數(shù)據(jù)。

網(wǎng)絡(luò)上例如論壇發(fā)帖、微博評(píng)論、淘寶京東的買家評(píng)價(jià)等文本輿情信息都是可以用爬蟲工具直接爬取的。以八爪魚為例,可以很方便的從網(wǎng)站上把我們需要的內(nèi)容按二維結(jié)構(gòu)表的形式(比如excel)免費(fèi)下載保存。如下圖所示,八爪魚就從電商網(wǎng)站商品詳情頁(yè)上爬取到了信息。同理,爬取用戶輿情數(shù)據(jù)也可以采用相同的方法實(shí)現(xiàn)。

(圖片來(lái)源:八爪魚官網(wǎng)免費(fèi)教程視頻截圖,筆者標(biāo)注)

2、文本清洗和預(yù)處理

用戶在網(wǎng)絡(luò)上的書寫表達(dá)非常隨意多樣,漢字中夾雜數(shù)字、字母、符號(hào);語(yǔ)句段落的表達(dá)間斷不完整,還會(huì)出現(xiàn)大量重復(fù)的短語(yǔ)短句,比如有的人會(huì)評(píng)論“棒棒棒棒”“太太太太差了“。文本清洗首要是把這些噪音數(shù)據(jù)清洗掉。ROST的“文本處理”功能可以用來(lái)進(jìn)行文本清洗。

我們還應(yīng)根據(jù)需要對(duì)數(shù)據(jù)進(jìn)行重新編碼。例如在網(wǎng)易云課堂的某次輿情分析中,用戶大量提及了中國(guó)大學(xué)MOOC,但表達(dá)方式有多種(如中M、中國(guó)大學(xué)慕課、慕課)。為了便于分析,統(tǒng)一編碼是非常必要的。

3、分詞

分詞就是把一段中文文本切割成一個(gè)個(gè)單獨(dú)的詞。中文分詞的難點(diǎn)在于書寫中文時(shí)字詞之間并沒(méi)有明顯的間隔或劃分,不像英文那樣可以根據(jù)自然書寫的間隔實(shí)現(xiàn)基本的分詞(如“we are family”可以直接拆分出“we” “are” “family”)。

漢字書寫表達(dá)時(shí)沒(méi)有明顯的分隔符,再加上漢語(yǔ)博(那)大(么)精(復(fù))深(雜),大大增加了中文分詞的難度。這里舉一個(gè)經(jīng)典的例子:短語(yǔ)“南京市長(zhǎng)江大橋”中由于有些詞語(yǔ)存在歧義,計(jì)算機(jī)的分詞結(jié)果可能是“南京市/長(zhǎng)江/大橋”,也可能是“南京/市長(zhǎng)/江大橋”。我們顯然知道第一種情況是正確的,但如果算法還不夠完善計(jì)算機(jī)就可能出錯(cuò),畢竟兩種結(jié)果基于漢語(yǔ)構(gòu)詞和語(yǔ)法規(guī)則都是說(shuō)得通的??梢?jiàn)具體在實(shí)際進(jìn)行分詞的時(shí)候,結(jié)果可能存在一些不合理的情況?;谒惴ê椭形脑~庫(kù)建成分詞系統(tǒng)后,還需要通過(guò)不斷的訓(xùn)練來(lái)提高分詞的效果,如果不能考慮到各種復(fù)雜的漢語(yǔ)語(yǔ)法情況,算法中存在的缺陷很容易影響分詞的準(zhǔn)確性。

4、詞頻和關(guān)鍵詞

詞頻就是某個(gè)詞在文本中出現(xiàn)的頻次。簡(jiǎn)單來(lái)說(shuō),如果一個(gè)詞在文本中出現(xiàn)的頻次越多,這個(gè)詞在文本中就越重要,就越有可能是該文本的關(guān)鍵詞。這個(gè)邏輯本身沒(méi)有問(wèn)題,但其中有一些特殊情況需要留意。

最關(guān)鍵的一點(diǎn)就是在關(guān)于自然語(yǔ)言的語(yǔ)料庫(kù)里,一個(gè)單詞出現(xiàn)的頻率與它在頻率表里的排名成反比。根據(jù)經(jīng)典“齊夫定律”的定義,假設(shè)我對(duì)文本進(jìn)行分詞處理并統(tǒng)計(jì)了詞頻,發(fā)現(xiàn)詞頻排名TOP3的三個(gè)詞分別為“的”、“是”、“它”,那么“的”出現(xiàn)頻率應(yīng)該約為“是”的2倍,約為“它”的3倍。結(jié)果就可能會(huì)是詞頻排名靠前的高頻詞占去了整個(gè)語(yǔ)料的大半,其余多數(shù)詞的的出現(xiàn)頻率卻很少。

所以不能完全直接的基于詞頻來(lái)判斷輿情文本中哪些是重要的關(guān)鍵詞,詞頻最高的其實(shí)是中文中的常用字,而非對(duì)當(dāng)前文本最有代表性的關(guān)鍵詞。如下圖的詞頻曲線所示,只有出現(xiàn)在曲線中間區(qū)域的詞才是真正在當(dāng)前文本中出現(xiàn)頻率高,并且在其他文本中很少出現(xiàn)的,這些詞語(yǔ)就是當(dāng)前文本的關(guān)鍵詞,對(duì)當(dāng)前文本具有重要性和代表性。前端的高頻詞和靠后的長(zhǎng)尾低頻詞都可排除在考慮范圍之外。

(圖片來(lái)源:Google,筆者標(biāo)注)

基于這個(gè)原理,在詞頻統(tǒng)計(jì)之前需要過(guò)濾掉文本中的停用詞(stop word)。出現(xiàn)在詞頻曲線頭部的那些高頻詞,就多數(shù)是停用詞。停用詞還包括實(shí)際意義不大但使用頻率高的功能性詞匯,比如“啊”、“的”、“在”、“而且”這樣的語(yǔ)氣詞、介詞、連詞等等。過(guò)濾停用詞還是為了減少信息冗余,提高分析的效率和準(zhǔn)確性。過(guò)濾停用詞需要的停用詞表,詞庫(kù)都可以在網(wǎng)上下載。實(shí)際應(yīng)用的過(guò)程中我們還可以在停用詞表中添加或刪減特定的詞匯,使之更加完善或具有針對(duì)性,符合當(dāng)前研究的實(shí)際需要。

包括分詞、過(guò)濾停用詞、統(tǒng)計(jì)高頻詞在內(nèi)的這些操作,都可以通過(guò)ROST的分詞工具完成。我們可以在ROST中導(dǎo)入經(jīng)過(guò)完善或自定義的詞庫(kù)詞表,替換掉ROST自帶的默認(rèn)詞庫(kù)。

這些被提取出的關(guān)鍵詞濃縮了用戶輿情中的精華信息,能反映出用戶的關(guān)注點(diǎn)、情緒和認(rèn)知,產(chǎn)品的潛在競(jìng)爭(zhēng)力等信息。例如,在網(wǎng)易100分的智能筆用戶需求調(diào)研項(xiàng)目中,我們針對(duì)2C市場(chǎng)的智能筆消費(fèi)者進(jìn)行了輿情分析。首先我們通過(guò)ROST的分詞工具獲取了分詞文檔,關(guān)鍵詞及其詞頻列表。然后我們將分詞后的文檔導(dǎo)入在線詞云編輯器Tagxedo,就能直接生成詞云圖。

根據(jù)分詞結(jié)果和詞云圖,我們基本能做出如下判定:

  • 用戶的整體使用體驗(yàn):方便
  • 產(chǎn)品的核心功能點(diǎn):同步,識(shí)別,效率
  • 產(chǎn)品的主要使用場(chǎng)景:筆記,繪畫
  • 用戶的消費(fèi)體驗(yàn):價(jià)格,概念創(chuàng)意,外觀
  • 可推測(cè)潛在用戶的身份:商務(wù)人士?老師?學(xué)生?藝術(shù)設(shè)計(jì)從業(yè)者?

但如果想要進(jìn)一步知道具體內(nèi)容之間的關(guān)系,就還得要繼續(xù)挖掘分析這些關(guān)鍵詞之間的結(jié)構(gòu)關(guān)系。

5、語(yǔ)義網(wǎng)絡(luò)分析

語(yǔ)義網(wǎng)絡(luò)分析是指篩選統(tǒng)計(jì)出高頻詞以后,以高頻詞兩兩之間的共現(xiàn)關(guān)系為基礎(chǔ),將詞與詞之間的關(guān)系數(shù)值化處理,再以圖形化的方式揭示詞與詞之間的結(jié)構(gòu)關(guān)系?;谶@樣一個(gè)語(yǔ)義網(wǎng)絡(luò)結(jié)構(gòu)圖,可以直觀的對(duì)高頻詞的層級(jí)關(guān)系、親疏程度進(jìn)行分析。

其基本原理是統(tǒng)計(jì)出文本中詞匯、短語(yǔ)兩兩之間共同出現(xiàn)的次數(shù),再經(jīng)聚類分析,梳理出這些詞之間關(guān)系的緊密程度。一個(gè)詞對(duì)出現(xiàn)的次數(shù)越多,就表示這兩個(gè)詞之間的關(guān)系越密切。每個(gè)詞都有可能和多個(gè)詞構(gòu)成詞對(duì),也會(huì)有些詞兩兩之間不會(huì)存在任何共線關(guān)系。關(guān)鍵詞共現(xiàn)矩陣就是統(tǒng)計(jì)出共現(xiàn)單詞對(duì)出現(xiàn)的頻率,將結(jié)果構(gòu)建而成的二維共現(xiàn)詞矩陣表。

再經(jīng)聚類分析處理,將關(guān)鍵詞共現(xiàn)矩陣轉(zhuǎn)化為語(yǔ)義關(guān)系網(wǎng)絡(luò),揭示出各節(jié)點(diǎn)之間的層級(jí)關(guān)系、遠(yuǎn)近關(guān)系。需要特別強(qiáng)調(diào)的是,語(yǔ)義網(wǎng)絡(luò)分析只是根據(jù)節(jié)點(diǎn)的分布情況來(lái)揭示他們之間關(guān)系的緊密程度,并不能表示節(jié)點(diǎn)之間存在因果關(guān)聯(lián)?;诠铂F(xiàn)矩陣的關(guān)鍵詞語(yǔ)義網(wǎng)絡(luò)分析,同樣也可以通過(guò)ROST中的語(yǔ)義分析工具來(lái)完成,生成語(yǔ)義網(wǎng)絡(luò)結(jié)構(gòu)圖供我們進(jìn)行分析。

例如,我們?cè)槍?duì)網(wǎng)易云課堂的用戶支付問(wèn)題進(jìn)行了輿情分析。所有輿情數(shù)據(jù)是以若干支付相關(guān)的詞匯為關(guān)鍵詞,進(jìn)行抓取的。通過(guò)ROST的分析生成了如下圖所示的語(yǔ)義網(wǎng)絡(luò)結(jié)構(gòu)圖。

在這個(gè)語(yǔ)義網(wǎng)絡(luò)圖中,次級(jí)節(jié)點(diǎn)基本以核心節(jié)點(diǎn)為中心向周圍輻射分布,但其中也存在局部的簇群關(guān)系,揭示出主要問(wèn)題之間的潛在關(guān)聯(lián):

  • 優(yōu)惠券:優(yōu)惠券使用問(wèn)題和重新支付場(chǎng)景關(guān)系密切,可挖掘分析導(dǎo)致了重新支付場(chǎng)景下的優(yōu)惠券使用問(wèn)題的具體原因。
  • 移動(dòng)端:移動(dòng)端支付問(wèn)題突出的表現(xiàn)在IOS端
  • 支付渠道:微信和支付寶的支付情況存在差異。微信和訂單的創(chuàng)建搜索關(guān)系密切,支付寶和購(gòu)買流程關(guān)系密切。

6、情感分析

對(duì)用戶輿情進(jìn)行情感分析,主要是分析具有情感成分的詞匯的情感極性(即情感的正性、中性、負(fù)性)和情感強(qiáng)烈程度,然后計(jì)算出每個(gè)語(yǔ)句的總值,判定其情感類別。還可以綜合全文本中所有語(yǔ)句,判定總輿情數(shù)據(jù)樣本的整體態(tài)度和情感傾向。

ROST同樣也可以完成對(duì)文本情感的分析。但目前不少文獻(xiàn)、研究認(rèn)為中文情感分析的準(zhǔn)確性不夠高,因?yàn)橹形某擞兄苯颖磉_(dá)各種極性情感的形容詞(高興、生氣),還有用于修飾情感程度的副詞(很好,非常、太),有時(shí)候其中還會(huì)夾雜表示否定的詞(非常不好用,很不方便)。分詞處理文本時(shí),要對(duì)形容詞、副詞、否定詞都有正確的分詞;分詞后,要基于情感詞庫(kù)、否定詞庫(kù)、程度副詞庫(kù)對(duì)這些情感詞匯進(jìn)行正確的賦值;最后進(jìn)行情感值加權(quán)計(jì)算,才能最終分析出總的情感類別。

另外需要注意的是,我們的輿情數(shù)據(jù)可能來(lái)自電商、應(yīng)用市場(chǎng)、社區(qū)論壇等,這些來(lái)源渠道本身就對(duì)整體數(shù)據(jù)的情感傾向有篩選,具有某些屬性的情感表達(dá)直接就被該渠道過(guò)濾掉了。

三、總結(jié)

總的來(lái)看,用戶輿情具備有優(yōu)勢(shì)特點(diǎn):

  • 來(lái)源渠道豐富:不限于社交網(wǎng)絡(luò)、新聞資訊媒體、電商平臺(tái)、應(yīng)用市場(chǎng)等。
  • 覆蓋面廣,信息量大:覆蓋到不同人口學(xué)特征的人群,覆蓋到目標(biāo)用戶、競(jìng)品用戶等不同人群。
  • 真實(shí)客觀:整體而言是用戶最直接的表達(dá),能在一定程度上保證數(shù)據(jù)的真實(shí)客觀。
  • 獲取成本低:基本上都能快速、免費(fèi)的獲取,省時(shí)高效。

在用研工作中,用戶輿情分析能讓我們?cè)谔囟ǖ难芯勘尘跋?,以更小的代價(jià)了解到產(chǎn)品的市場(chǎng)反饋,用戶的態(tài)度認(rèn)知和需求痛點(diǎn),有效的達(dá)到研究目的。

 

作者:曾玫媚,網(wǎng)易產(chǎn)品發(fā)展部用鹽一枚。目前對(duì)接網(wǎng)易中小學(xué)教育產(chǎn)品網(wǎng)易100分的用戶研究工作,正在努力為澆(zhé)灌(mó)祖國(guó)的花朵添磚加瓦。

來(lái)源:微信公眾號(hào)【用鹽有點(diǎn)咸】

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 文皮皮,文本分析高頻詞很好用,http://www.wenpipi.com/

    來(lái)自廣東 回復(fù)
  2. 有料

    來(lái)自北京 回復(fù)
  3. 回復(fù)