日韩A级毛片免费视频,无码专区亚洲综合另类,日韩精品专区一二三区

<abbr id="6gmom"></abbr>

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

開通會員

發(fā)布

注冊 | 登錄

聽懂用戶們在說什么——UGC文本分析怎么做？

我叫徐知魚

2022-07-15

1 評論 7252 瀏覽 38 收藏

🔗 技术知识、行业知识、业务知识等，都是B端产品经理需要了解和掌握的领域相关的知识，有助于进行产品方案设计和评估

編輯導(dǎo)語：文本分析對于用戶研究來說十分重要，本文作者分享了UGC文本分析的具體方法邏輯，從獲取評論數(shù)據(jù)、預(yù)處理評論數(shù)據(jù)、分析評論數(shù)據(jù)、主題分析展開闡述，感興趣的一起來學(xué)習(xí)一下吧，希望對你有幫助。

如果你的評論區(qū)僅有10條用戶評論，你可以很輕松地了解他們對這個產(chǎn)品/商品的態(tài)度如何以及表達了什么想法。但是，如果是100條，是不是需要稍微花點時間，變得吃力了？

如果是1000條，恐怕需要附上一些數(shù)據(jù)篩選的方式，一條一條看就不太適合了。即使1000條可以勉強人力處理，但問題是，如果評論的數(shù)量擴大到了10000條，別說讀懂了，就連翻頁都得好長時間，人力就捉襟見肘了。

這時候你需要運用一些文本分析的方法，來幫助你讀懂海量的評論文本究竟在表達什么。

一、獲取評論數(shù)據(jù)

最樸實無華的方式當(dāng)然是Crtl C+Crtl V，將每一條數(shù)據(jù)手動復(fù)制到Excel表格當(dāng)中。但正如上文所言，人力是有上限的，請讓我結(jié)合自身經(jīng)驗來分享一下高效點的方法。

1. 如果你想通過編程的方法

在大家都是技術(shù)大佬的內(nèi)網(wǎng)，我不敢班門弄斧，只簡單地推薦一下學(xué)習(xí)路徑、科普一下相關(guān)概念。

做網(wǎng)絡(luò)爬蟲最易用的語言應(yīng)該非python莫屬，因為上手的門檻很低，在掌握了一系列基本語法，會定義函數(shù)后，就可以安裝beautiful soup庫來開始爬蟲之旅。網(wǎng)絡(luò)上的免費課程非常地多，讓人眼花繚亂。

如果你自制力足夠，學(xué)習(xí)能力夠強，其實隨便一搜，python的基礎(chǔ)語法對你來說一定不算難。但如果你學(xué)習(xí)的時候需要一些交互，趣味對你來說是必要的話，我會推薦你選擇風(fēng)變編程的課程，在線編程，即學(xué)即反饋是它的最大優(yōu)點。學(xué)習(xí)時間上來看，30小時是足夠了的。

2. 如果你想通過無代碼的方法

市面上越來越多的不用使用代碼就可以實現(xiàn)網(wǎng)絡(luò)爬取的工具，讓本懶人很是快樂。

1）八爪魚采集器

八爪魚應(yīng)該是目前中文互聯(lián)網(wǎng)曝光度最高的網(wǎng)絡(luò)抓取工具。

優(yōu)點：具有一定數(shù)量現(xiàn)成的采集模版，有專門的問題解決qq群。
缺點：自定義采集做得并不是很好用，具有一定的上手門檻。

2）后羿采集器

很低調(diào)但是很好用的一款網(wǎng)絡(luò)爬蟲工具。

優(yōu)點：智能采集很智能，識別準(zhǔn)確度高，同時自定義流程上手也較為簡單。
缺點：價格昂貴，免費版的網(wǎng)速實在令人汗顏。

3）集搜客

優(yōu)點：集文本分析的部分功能于一體，可以一站式實現(xiàn)較多需求；
缺點：爬蟲功能實在不好用，遠不如后裔采集器。

如果你的爬取要求不是很復(fù)雜的那種，個人推薦使用后羿采集器來爬取，慢就慢點，大不了，開著電腦給它掛一晚上？

二、預(yù)處理評論數(shù)據(jù)

1. 評論內(nèi)容分詞與去詞

1）分詞是什么，為什么這樣做

Why？我爬取下來了咋還要分詞，「分詞」又是個什么東東？速速聽我說來，我們都知道，計算機和人腦的區(qū)別在于理性與感性，計算機為了更高效地處理數(shù)據(jù)，需要做出一些更符合計算機運行邏輯的加工，分詞就是其中一種。

舉個栗子：我今天駕駛寶馬的汽車前往商場了。

經(jīng)過分詞處理后：我/今天/駕駛/寶馬/的/汽車/前往/商場/了。

就是這樣，經(jīng)過了分詞的文本，將更利于計算機來進行統(tǒng)計分析。

在分詞系統(tǒng)的推薦上，我認為NLPIR-ICTCLAS漢語分詞系統(tǒng)會比較好使，這是它的官網(wǎng)，有下載地址以及簡單的功能介紹。

2）去詞呢

與分詞同一步調(diào)的，是「去詞」。去詞一般來說是去除停用詞（Stopwords），意指可以忽略的詞。在文本分析中，一些特定的詞語或字不提供信息價值（或提供很少），而為了提高效率，產(chǎn)出更可直接用于解讀的分析結(jié)果，我們會選擇在正式的文本分析前，將它們?nèi)コ簟?/p>

同樣舉個栗子，這里經(jīng)過分詞的句子：我/今天/駕駛/寶馬/的/汽車/前往/商場/了。

經(jīng)過去除停用詞后，它變成了：我/今天/駕駛/寶馬/汽車/前往/商場（一些停用詞表中，「我」以及「今天」都在其列，為了方便理解，舉的例子并未去除這兩個詞）。

就是這樣，去除停用詞的目的在于提高信息密度，提高計算機分析產(chǎn)生結(jié)果的效率以及方便人為解讀結(jié)果。

去詞一般不會成為一項專門的流程，而是被混在分詞過程中。停用詞表是需要額外準(zhǔn)備（一般分詞的系統(tǒng)中也會自帶停用詞表），百度一搜，會有很多的停用詞表，csdn和github上也可以隨意下載，不做贅述。

三、分析評論數(shù)據(jù)

做完評論文本數(shù)據(jù)的預(yù)處理后，就進入到具體的分析階段了。文本分析的方法與目的是高度相關(guān)的，因此難以全部囊括，就簡單聊幾個通用的、容易上手的。

注：下文幾個分析方法并不存在直接的次序關(guān)系。

1. 情感分析

「情感分析」，顧名思義是用來判斷文本情感傾向的，一般來說會分為積極、中性與消極情感，也可以根據(jù)打分的高低，分一分極端積極/消極的情況。

但是如果想要細化到喜怒哀懼悲嗔愛就難以通過簡單的三方工具做到了，需要自己構(gòu)建詞庫，暫且不提，菜鳥本人也在修煉ing。

用一些工具/平臺來實現(xiàn)情感分析，那么精度只能說差強人意而已，不能做到盡善盡美，簡單推薦罷。

首先是很古老的一個軟件，rost cm6。是由武漢大學(xué)在很久之前編寫的，據(jù)我所知往后的(十)幾年里并沒有進行任何更新。
上文提到的可以用于網(wǎng)絡(luò)爬取的集搜客也可以進行情感分析，而且據(jù)它介紹，自己的情感分析準(zhǔn)度要比rost cm6高上不少以期獲得用戶的青睞。

好用的軟件只推薦這兩個，因為市面上能直接拿來用的工具實在太少。但是如果加一步調(diào)用api的話，其實百度開放平臺/訊飛開放平臺/騰訊云智以及一些大神們都有很成熟的解決方案，想必精度也會更高。

2. 詞頻分析

講道理，詞頻分析很難稱得上什么高大上的分析方法，只是把詞語出現(xiàn)的頻率直白地展現(xiàn)出來而已。一段文本在經(jīng)歷過去除停用詞、分詞之后，便都是落單的詞語了，數(shù)數(shù)數(shù)出來就行。上文提到的NLPIR分詞系統(tǒng)、rost cm6、集搜客都能很輕松地做到。

額外提一嘴，在這個過程中，詞頻分析的精度取決于分詞的精度。如果你發(fā)現(xiàn)詞頻分析的結(jié)果不是很讓人滿意，不妨多試試幾套分詞系統(tǒng)，然后也可以自定義一下詞庫，避免特定的詞語被分開。

舉個栗子：「夏日泳池」「冬日泳池」作為某個酒店專門的兩個泳池，我們會更期待他們以組合的形式而非「夏日」「冬日」以及「泳池」的形式出現(xiàn)。

至于如何讓詞頻分析可視化一點，好看一點，自然是做一張大家都熟悉的詞云圖，這里推薦Wordart

https://wordart.com/create，純凈免費無廣告，便民實用。

3. 網(wǎng)絡(luò)語義共現(xiàn)

「語義網(wǎng)絡(luò)共現(xiàn)」的目的在于可視化的展現(xiàn)詞語與詞語之間的關(guān)系。而生成一個語義網(wǎng)絡(luò)共現(xiàn)圖的的基礎(chǔ)在于建立起詞語的共現(xiàn)矩陣。行文至此，感受到不動用編程手段的話，能使用的工具越發(fā)寥寥。

關(guān)于語義網(wǎng)絡(luò)共現(xiàn)，仍然需要祭出rost cm6，它有一個很方便的功能，可以一鍵式生成語義網(wǎng)絡(luò)。

一鍵生成的語義網(wǎng)絡(luò)會有兩個問題：

一是精度不夠好，因為rost cm6本身的分詞做得不是很好，自然影響到后續(xù)的共現(xiàn)矩陣的構(gòu)建，可以導(dǎo)入已經(jīng)分好詞的文件代替它，可以做到一定程度上的優(yōu)化；
第二個是圖片不夠美觀，這個問題的優(yōu)化措施是，將rost cm6生成的共現(xiàn)矩陣導(dǎo)出，再將這個表格導(dǎo)入到Gephi軟件中生成語義網(wǎng)絡(luò)共現(xiàn)圖，會好看很多。