国产日韩欧美集合一区二区三区,国内精品久久久久久久久齐齐,欧美伊人久久综合热线大杳蕉

搜索

APP

起點課堂會員權益

職業(yè)體系課特權

線下行業(yè)大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

開通會員

發(fā)布

注冊 | 登錄

文本挖掘小探索：避孕藥內容主題分析

shangyuan

2017-08-29

1 評論 5419 瀏覽 14 收藏

🔗 产品经理的不可取代的价值是能够准确发现和满足用户需求，把需求转化为产品，并协调资源推动产品落地，创造商业价值。

文章分享了作者的一個文本挖掘的實例，希望對你能夠有所幫助。

輿情監(jiān)測一直是眾多品牌關注的地方，尤其品牌想知道在品牌推廣，品牌策略，品牌廣告中出現(xiàn)的問題，從而能進行策略上的改進，但是現(xiàn)在很多人都是讀帖子，筆者在4年前做輿情分析時候就是讀帖子，至今沒有太多改善，關注輿情監(jiān)測中的主題挖掘部分，主題挖掘可以使數(shù)據(jù)分析師，減輕工作量，去掉讀帖子等一系列等的復雜工作，大致了解主題規(guī)律。

本文是筆者早前發(fā)在某網(wǎng)站上的，由于筆者最近太忙，將本文修改下呈現(xiàn)給大家：

本文分析邏輯：

數(shù)據(jù)處理

1.數(shù)據(jù)源：

從各大網(wǎng)站論壇，微博等爬蟲關于某避孕藥的內容

關鍵字段名稱包含：

content Author: 發(fā)帖作者（第D列）
Content Forward: 轉發(fā)的內容（第F列）
Content_Main: 發(fā)帖內容（第G列）
Title：發(fā)帖內容（第H列）

其他字段和本文不想關，不闡述

2.加載數(shù)據(jù)包（r語言）和需要在中文分詞中插入的中文詞語：

（1）Rwordseg：（4年前用的分詞包，不知道現(xiàn)在更新與否），分詞包就是讓R語言識別中文，按照單詞來視為一個值

（2）插入單詞：因為Rwordseq中文詞性包含不了其他奇怪詞匯，例如：媽富隆、優(yōu)思明、短期避孕藥、治療多囊等。插入單詞作為模型的變量值

3.讀入文本分析處理

去掉數(shù)字、特殊字符、標準符號

數(shù)據(jù)探索：大概了解下數(shù)據(jù)現(xiàn)狀

1.根據(jù)變量值（單詞）統(tǒng)計各個單詞出現(xiàn)的次數(shù)

2.根據(jù)單詞量畫詞云圖

3.重新轉化用于聚類的數(shù)據(jù)格式

根據(jù)以上數(shù)據(jù)探索的詞頻，詞作為colname，詞頻表示數(shù)值，每一行是帖子內容作為id標示

例如：

即每個帖子出現(xiàn)了某詞的詞頻的次數(shù)，帖子1中出現(xiàn)避孕藥2次，優(yōu)思明4次，囊中1次

R語言tm包來作處理

即：分詞之后生成一個列表變量，用列表變量構建語料庫。

由于tm包中的停用詞（）都是英文（可以輸入stopwords()查看），所以大家可以去網(wǎng)上查找中文的停用詞，用removeWords函數(shù)去除語料庫中的停用詞：

生成語料庫之后，生成詞項-文檔矩陣（Term Document Matrix，TDM），顧名思義，TDM是一個矩陣，矩陣的列對應語料庫中所有的文檔，矩陣的行對應所有文檔中抽取的詞項，該矩陣中，一個[i,j]位置的元素代表詞項i在文檔j中出現(xiàn)的次數(shù)。

4.注意：

默認的加權方式是TF，即詞頻，這里采用Tf-Idf，該方法用于評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度：

在一份給定的文件里，詞頻 (term frequency, TF) 指的是某一個給定的詞語在該文件中出現(xiàn)的次數(shù)。這個數(shù)字通常會被歸一化，以防止它偏向長的文件。
逆向文件頻率 (inverse document frequency, IDF) 是一個詞語普遍重要性的度量。某一特定詞語的IDF，可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目，再將得到的商取對數(shù)得到。
某一特定文件內的高詞語頻率，以及該詞語在整個文件集合中的低文件頻率，可以產(chǎn)生出高權重的TF-IDF。因此，TF-IDF傾向于保留文檔中較為特別的詞語，過濾常用詞。

同時，需要用removeSparseTerms()函數(shù)進行降維