文本挖掘:避孕藥主題情感分析
關(guān)于輿情分析的實(shí)例分析,希望給你帶來(lái)一些幫助。
前言
距離上次文本挖掘小文章時(shí)間已經(jīng)過(guò)了3個(gè)月了,北京已經(jīng)入冬,有人說(shuō)北京的冬天很冷,但是吃上火鍋很暖;也有人說(shuō)北京的冬天霧霾嚴(yán)重,太干。這兩句表達(dá)的是對(duì)北京冬天的情感,即有正面也有負(fù)面。
如果在輿情分析而言,我們?cè)谧鰻I(yíng)銷分析,分析產(chǎn)品、活動(dòng)優(yōu)劣,或者希望維護(hù)品牌PR,我們就需要針對(duì)消費(fèi)者網(wǎng)絡(luò)發(fā)聲去分析情感,來(lái)幫助我們維護(hù)品牌,改善活動(dòng)產(chǎn)品,來(lái)達(dá)到監(jiān)測(cè)輿情分析效果。換句話說(shuō)也就是我們今天分享的主題—sentiment
輿情分析思路
筆者5年前做輿情分析時(shí)候一般來(lái)說(shuō)就是人工輿情,并沒有加入高級(jí)點(diǎn)的分析工具減少人工投入。隨著R,python等的流行,同時(shí),隨著各種開源包tm,LDA,Rwordseg開發(fā),以及高等概率數(shù)學(xué)的應(yīng)用,例如分詞算法根據(jù)隱性馬爾科夫鏈算法編寫而成(有興趣的同學(xué)自己研究),讓我們之前的工作量大大減少。因此人工輿情轉(zhuǎn)換成人工糾正輿情大勢(shì)所趨,即我們使用工具減少讀帖子的時(shí)間,并且讓機(jī)器學(xué)習(xí),人工后期糾錯(cuò)。
一般而言,輿情分析報(bào)告分為以下幾個(gè)步驟:
前兩個(gè)可以作為統(tǒng)計(jì)分析-統(tǒng)計(jì)時(shí)間趨勢(shì)音量,音量份額,后兩個(gè)可以作為建模分析-主題分析,情感判別。
這里有個(gè)小插曲:上次分享的是主題分析,筆者最近又重新梳理了下LDA,發(fā)現(xiàn)tm包中文分詞形成詞頻矩陣很不理想,這會(huì)導(dǎo)致LDA無(wú)法應(yīng)用,因此,后續(xù)筆者會(huì)自己寫個(gè)腳本將詞頻矩陣實(shí)現(xiàn),這樣會(huì)方便LDA,會(huì)方便聚類分析,以及預(yù)測(cè)分析。
言回正傳,情感分析就是表達(dá)發(fā)言人對(duì)一個(gè)主題的看法,有好有壞,或者中立。情感分析應(yīng)用分類兩類,第一是給定正負(fù)面詞,算分值,高于或者低于baseline則表示正面、負(fù)面情緒。第二,根據(jù)深度學(xué)習(xí),利用神經(jīng)網(wǎng)絡(luò)來(lái)區(qū)分正負(fù)情感。本文先實(shí)現(xiàn)第一類情感分析。
第一類情感分析:正負(fù)面詞典(簡(jiǎn)版)
讀入文本,數(shù)據(jù)清理
本次還是以上次文本為輸入項(xiàng),將content_Full 內(nèi)容做文本處理
清理原則:
- 去除特殊字符,空值等,例如☆移動(dòng)平臺(tái)☆iOS☆
- 去除轉(zhuǎn)發(fā)的內(nèi)容,留原作者觀點(diǎn)。例如 保留紅框內(nèi)的文本,去除后面轉(zhuǎn)發(fā)文本
- 刪除文本過(guò)長(zhǎng)的內(nèi)容,內(nèi)容偏向日記和廣告,減少文本噪聲
- 去除stopwords
比如中文常規(guī)字符,‘的’‘地’‘得’‘我’等
添加詞匯
由于本文是醫(yī)用詞匯,需要添加的詞匯偏重醫(yī)用或者品牌,不讓分詞拆成單個(gè)字符
例如:媽富隆,調(diào)經(jīng)
分詞&詞云圖
文本處理后,根據(jù)詞頻出現(xiàn)頻次,且過(guò)濾掉分詞為單個(gè)詞的中文,繪制詞云圖,鼠標(biāo)所過(guò)的詞可以顯示文本出現(xiàn)次數(shù),例如避孕藥:767次
載入正負(fù)詞典
正面詞記1;負(fù)面詞為-1,便于之后算分值劃定情感
計(jì)算情感得分
將文本中的分詞按照中英文詞典的正負(fù)面詞打分,計(jì)算分值,若中性詞(不出現(xiàn)字典)則記為0。
分值計(jì)算原理
- 公式 (自己編的,有疑問(wèn)請(qǐng)留言一起討論)
情感分值=∑i=1(正面+中性)*(-1)t
i 表示第i句話;t表示出現(xiàn)負(fù)面詞的次數(shù)
- 公式表示一句話中若出現(xiàn)偶數(shù)負(fù)面詞,表示肯定,例如:我其實(shí)覺得他沒有那么不通情達(dá)理。 兩次否定:不,沒有,t=2
結(jié)果
正面發(fā)聲分類結(jié)果:
負(fù)面發(fā)聲結(jié)果
后續(xù)改進(jìn):
- 將詞頻矩陣腳本改寫,重現(xiàn)LDA 或者 聚類
- 對(duì)文本先人工預(yù)判,將此打分進(jìn)行 confusion matrix,評(píng)估分類器
- 目測(cè)而言負(fù)面分類基本正確,正面分類中包含很多中性發(fā)聲,需要進(jìn)一步剔除研究
- 深度學(xué)習(xí)重現(xiàn)下情感分析
相關(guān)閱讀
作者:馮大福,微信公眾號(hào):說(shuō)說(shuō)數(shù)據(jù)分析那些事兒
本文由 @shangyuan 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自u(píng)nsplash,基于CC0協(xié)議
- 目前還沒評(píng)論,等你發(fā)揮!