微博核心傳播者挖掘與傳播規(guī)模預(yù)測(cè)研究
摘要:基于30條熱門(mén)微博的全部傳播數(shù)據(jù)及參與傳播的賬號(hào)關(guān)系,本報(bào)告利用數(shù)據(jù)挖掘方法量化地評(píng)估出各主題微博轉(zhuǎn)發(fā)網(wǎng)絡(luò)的結(jié)構(gòu)特征、傳播特征、內(nèi)容特征,并以此建立全面、系統(tǒng)的綜合評(píng)價(jià)體系,再結(jié)合PageRank算法思想,提出了一種有效的核心傳播者挖掘算法,從而精準(zhǔn)地評(píng)估各條微博中各節(jié)點(diǎn)的影響力差異,識(shí)別核心傳播者。最后依據(jù)核心傳播者的行為集合建立傳播模型,預(yù)測(cè)了單條微博的傳播規(guī)模。
由中國(guó)新聞史學(xué)會(huì)計(jì)算傳播學(xué)研究委員會(huì)與微熱點(diǎn)大數(shù)據(jù)研究院聯(lián)合舉辦的第二屆傳播數(shù)據(jù)挖掘競(jìng)賽已圓滿落幕,15支戰(zhàn)隊(duì)盡顯風(fēng)采。以下為“核心用戶挖掘與傳播規(guī)模預(yù)測(cè)”選題優(yōu)秀作品《社交媒體時(shí)代核心用戶識(shí)別與傳播規(guī)模預(yù)測(cè)分析》,由來(lái)自中國(guó)傳媒大學(xué)“豬頭DD的BoysandGirls天天有錢(qián)”精彩呈現(xiàn)。
一、引言
作為一種基于用戶關(guān)系信息分享、傳播以及獲取的社交平臺(tái),當(dāng)前微博已成為中國(guó)最重要的公共空間,而微博的核心傳播者起著輿論引導(dǎo)甚至改變輿情發(fā)展方向的重要作用。微博核心傳播者的挖掘?qū)π畔⒌膫鞑ヅc演化的深度分析、輿情監(jiān)控和引導(dǎo)都具有重要意義。另一方面,也為提供個(gè)性化服務(wù)以及差異廣告的投遞提供便利。如何挖掘微博核心傳播者,成為我們關(guān)注的議題。
二、問(wèn)題的提出與分析
挖掘核心傳播者是本報(bào)告的核心議題。在此背景下,提出以下四個(gè)子問(wèn)題:
- 核心傳播者如何定義,存在什么樣的特征?
- 未知個(gè)體身份信息的情況下,基于30條熱門(mén)微博的全部傳播數(shù)據(jù)及參與傳播的賬號(hào)關(guān)系,如何對(duì)核心傳播者的關(guān)鍵特征進(jìn)行有效量化?
- 如何基于量化的關(guān)鍵特征建立全面系統(tǒng)的評(píng)價(jià)體系并精準(zhǔn)地評(píng)估各條微博中各節(jié)點(diǎn)的影響力差異,并識(shí)別核心傳播者?
- 在有限的信息中如何較準(zhǔn)確地刻畫(huà)出核心傳播者的行為畫(huà)像,進(jìn)而建立有效的模型預(yù)測(cè)單條微博的傳播規(guī)模?
三、研究過(guò)程與方法
3.1 微博核心傳播者概念辨析
本報(bào)告中的“微博核心傳播者挖掘”和“意見(jiàn)領(lǐng)袖挖掘”不同。在《人民的選擇》中,拉扎斯菲爾德(Lazarsfeld)首次提出“意見(jiàn)領(lǐng)袖”。意見(jiàn)領(lǐng)袖作為媒介信息的影響的中繼和過(guò)濾環(huán)節(jié),對(duì)大眾傳播效果產(chǎn)生重要影響,是大眾傳播中不可缺少的一部分。
關(guān)于微博意見(jiàn)領(lǐng)袖挖掘的研究眾多,但當(dāng)前大多數(shù)挖掘意見(jiàn)領(lǐng)袖是基于微博整個(gè)的傳播環(huán)境而言。
本研究從給定的數(shù)據(jù)集里找“核心傳播者”,非嚴(yán)格意義上的“意見(jiàn)領(lǐng)袖”,不考慮用戶評(píng)論、點(diǎn)贊、活躍度等因素。筆者基于研究范圍,將本文的微博核心傳播者定義為:在微博信息傳遞中,對(duì)輿論的發(fā)展能起到關(guān)鍵性的導(dǎo)向作用,具有影響他人態(tài)度和行為的能力,能加快傳播速度并擴(kuò)大影響的用戶。
3.2 核心傳播者影響力特征
基于對(duì)用戶節(jié)點(diǎn)的深度分析,綜合用戶節(jié)點(diǎn)的各類(lèi)屬性,本研究基于30條熱門(mén)微博的全部傳播數(shù)據(jù)及參與傳播的賬號(hào)關(guān)系,選取用戶的結(jié)構(gòu)特征、傳播特征和內(nèi)容特征作為用戶影響力特征,并以此建立綜合評(píng)價(jià)體系:
3.2.1 結(jié)構(gòu)特征
結(jié)構(gòu)特征體現(xiàn)了用戶本身因素和所在網(wǎng)絡(luò)拓?fù)涞慕Y(jié)構(gòu)因素,通常可以由粉絲數(shù),關(guān)注數(shù),中心度等屬性表示。附錄A圖1顯示了一個(gè)社交網(wǎng)絡(luò)拓?fù)鋱D。但由于數(shù)據(jù)集所限,同時(shí)為了提高準(zhǔn)確度,本研究將用戶的結(jié)構(gòu)特征指標(biāo)歸結(jié)為以下兩點(diǎn):
(1)用戶關(guān)注數(shù)。關(guān)注數(shù)代表用戶能力范圍內(nèi)的信息接受度,核心傳播者的關(guān)注數(shù)應(yīng)該在一個(gè)合理區(qū)間內(nèi)。
(2)用戶粉絲數(shù)。因粉絲數(shù)在數(shù)據(jù)集中未給出,本研究使用倒排索引法從用戶關(guān)注集合中反向找出用戶粉絲集合。附錄A圖2顯示了該方法得到的用戶粉絲數(shù)符合冪律分布,且獲取的用戶為實(shí)際參與到傳播行為的“激活用戶”,是粉絲中對(duì)傳播貢獻(xiàn)最為顯著的部分,故可將該結(jié)果用于構(gòu)建用戶結(jié)構(gòu)特征指標(biāo)。
3.2.2 傳播特征
用戶的傳播特征即用戶在信息傳播過(guò)程中的傳播行為特征,通常表現(xiàn)為在一段時(shí)間內(nèi)發(fā)布的微博數(shù)和微博被點(diǎn)贊、被轉(zhuǎn)發(fā)和被評(píng)論的數(shù)量等。同樣因數(shù)據(jù)集所限,只將特征固定在轉(zhuǎn)發(fā)數(shù)。同時(shí),我們通常認(rèn)為,當(dāng)用戶發(fā)布的微博被非粉絲轉(zhuǎn)發(fā)條數(shù)越多,說(shuō)明其影響力不局限于固定受眾,影響力可能越大。因此,本研究將傳播特征區(qū)分為粉絲轉(zhuǎn)發(fā)數(shù)和非粉絲轉(zhuǎn)發(fā)數(shù)。
3.2.3 內(nèi)容特征
在意見(jiàn)領(lǐng)袖挖掘問(wèn)題中,用戶的影響力不能簡(jiǎn)單地從結(jié)構(gòu)特征和行為特征衡量,還需要從語(yǔ)義內(nèi)容角度去評(píng)價(jià)特定用戶對(duì)于某一話題的觀點(diǎn)[1],內(nèi)容特征參考以下兩點(diǎn):
(1)文本相似度。微博社交網(wǎng)絡(luò)大量的“灌水”、“刷數(shù)據(jù)”的行為使得許多轉(zhuǎn)發(fā)行為在內(nèi)容上與原內(nèi)容無(wú)關(guān),表達(dá)價(jià)值有限,因而引入文本相似度以衡量轉(zhuǎn)發(fā)文本與原微博在內(nèi)容上的相關(guān)程度,具有與原微博較高相似度的轉(zhuǎn)發(fā)文本才能真正傳播觀點(diǎn)和內(nèi)容,方能實(shí)現(xiàn)核心傳播者所應(yīng)具備的“擴(kuò)大影響”以及“引導(dǎo)輿論走向”的職能要求。
(2)內(nèi)容情感傾向。在微博社交網(wǎng)絡(luò)中,原創(chuàng)微博會(huì)引發(fā)大量的轉(zhuǎn)發(fā),轉(zhuǎn)發(fā)內(nèi)容綜合體現(xiàn)了眾人的褒貶情感。識(shí)別信息傳播過(guò)程中傳播者的主流情感態(tài)度, 有利于篩選出引導(dǎo)輿論發(fā)展方向、對(duì)其他受眾施加顯著影響的真正核心傳播者。
3.3 核心傳播者的指標(biāo)權(quán)重
以結(jié)構(gòu)特征、傳播特征、內(nèi)容特征為分析指標(biāo),運(yùn)用模糊層次分析法確定指標(biāo)權(quán)重。模糊層次分析法(FAHP)判斷指標(biāo)元素權(quán)重相較傳統(tǒng)的層次分析法具有計(jì)算過(guò)程復(fù)雜度低與計(jì)算結(jié)果分辨率高等優(yōu)點(diǎn),有利于提高排序與決策的科學(xué)性。
3.4 核心傳播者挖掘算法
3.4.1 評(píng)價(jià)體系各指標(biāo)量化方法
結(jié)構(gòu)特征和傳播特征數(shù)據(jù)能夠較為容易地從數(shù)據(jù)集中獲得。在內(nèi)容特征方面,對(duì)于情感指數(shù),首先需要對(duì)用戶的轉(zhuǎn)發(fā)文本的情感極性進(jìn)行分類(lèi)。本文采用LSTM神經(jīng)網(wǎng)絡(luò)訓(xùn)練了10萬(wàn)條帶有正負(fù)情感標(biāo)記的微博轉(zhuǎn)發(fā)、評(píng)論文本數(shù)據(jù)集,經(jīng)過(guò)五輪訓(xùn)練,準(zhǔn)確率高達(dá)94%,損失函數(shù)則低至0.37(見(jiàn)附錄A圖3),具有較好的預(yù)測(cè)效果。
隨后,由于模型的預(yù)測(cè)結(jié)果實(shí)際是文本內(nèi)容為正向及負(fù)向的雙向可能性,嘗試以情感極性的期望描述情感的強(qiáng)烈程度。(文本情感極性分析流程見(jiàn)附錄A圖4)眾多研究表明網(wǎng)絡(luò)的負(fù)面情緒往往相比正向情緒具有更大的傳播效果,因而得到公式:
文本相關(guān)度則利用TF-IDF算法獲取。由于微博轉(zhuǎn)發(fā)文本主要針對(duì)熱點(diǎn)事件、話題開(kāi)展討論,共輸入1000余篇完成分詞的新聞文本構(gòu)造出詞典并構(gòu)建TF-IDF模型,最后以此進(jìn)行原微博文本與轉(zhuǎn)發(fā)文本的相似度匹配。
3.4.2 預(yù)處理問(wèn)題
在內(nèi)容屬性挖掘過(guò)程中,本研究首先對(duì)轉(zhuǎn)發(fā)文本的非漢字詞組、標(biāo)點(diǎn)、用戶昵稱(chēng)等進(jìn)行了過(guò)濾。由于每種特征數(shù)據(jù)具有不同的量綱,因此采用min-max標(biāo)準(zhǔn)化對(duì)數(shù)據(jù)進(jìn)行線性轉(zhuǎn)換,將結(jié)果映射到(0,1)之間。轉(zhuǎn)換函數(shù)為:
綜上得到綜合評(píng)價(jià)指數(shù)計(jì)算公式:
3.4.3 改進(jìn)的PageRank算法
三維度的綜合評(píng)價(jià)體系可以有效評(píng)估一個(gè)節(jié)點(diǎn)本身的直接影響力,然而用戶的影響力與傳播效果除了本身的直接影響,還應(yīng)包括傳遞本節(jié)點(diǎn)觀點(diǎn)的后續(xù)節(jié)點(diǎn)傳播所帶來(lái)的間接影響。由此,本研究嘗試引入網(wǎng)頁(yè)排名算法PageRank 思想:
其中,Vn,Vn-1代表一系列節(jié)點(diǎn)組成pagerank值向量,M為N×N概率轉(zhuǎn)移矩陣。相較于傳統(tǒng)微博影響力研究針對(duì)粉絲-關(guān)注網(wǎng)絡(luò)進(jìn)行PageRank計(jì)算,本研究創(chuàng)新性地將PageRank思想引入微博轉(zhuǎn)發(fā)網(wǎng)絡(luò)。PageRank算法的思想與微博轉(zhuǎn)發(fā)網(wǎng)絡(luò)相吻合。因此本研究將構(gòu)建由轉(zhuǎn)發(fā)者指向被轉(zhuǎn)發(fā)者的有向關(guān)系圖。
但PageRank的弊端在于過(guò)分看重外部鏈接的間接價(jià)值而忽視了節(jié)點(diǎn)本身的直接價(jià)值,前文所述三維度指標(biāo)體系恰好可以較為全面評(píng)價(jià)一個(gè)節(jié)點(diǎn)本身的直接影響力和價(jià)值。參考陳淑娟[2]、馮勇[3]等的研究思路,本研究將節(jié)點(diǎn)i的綜合評(píng)價(jià)指數(shù)I作為權(quán)重參數(shù)乘至到PageRank轉(zhuǎn)移概率矩陣中第i列(即為所有節(jié)點(diǎn)鏈接到節(jié)點(diǎn)i的概率加權(quán)),從而影響PageRank的迭代結(jié)果。
本處數(shù)學(xué)處理的意義可解釋為:當(dāng)一個(gè)轉(zhuǎn)發(fā)用戶的自身影響力與傳播價(jià)值較高,任何對(duì)他進(jìn)行二次轉(zhuǎn)發(fā)的節(jié)點(diǎn)將有更大的概率將流量引向該用戶。
綜上,改進(jìn)后的用戶影響力(User Influence, UI)的矩陣表達(dá)式如下:
其中AIndex為本微博各轉(zhuǎn)發(fā)節(jié)點(diǎn)綜合評(píng)價(jià)指數(shù)所組成的N×N對(duì)角矩陣,Vn為n次迭代后得到的N個(gè)節(jié)點(diǎn)的UI值組成的向量。
3.5 預(yù)測(cè)單條微博傳播規(guī)模
3.5.1 核心傳播者的信息傳播動(dòng)力學(xué)建模
信息在社交媒體中的傳播模式呈現(xiàn)出去中心化的特點(diǎn),核心傳播者在信息傳播過(guò)程中帶動(dòng)了大量的二次傳播[4]。本研究對(duì)核心傳播者帶動(dòng)的信息傳播模式進(jìn)行可視化(附錄A圖5)發(fā)現(xiàn),絕大多數(shù)的核心傳播者的轉(zhuǎn)發(fā)能夠迅速引起大量的二次轉(zhuǎn)發(fā),之后轉(zhuǎn)發(fā)數(shù)迅速下降,進(jìn)入到慢速傳播狀態(tài),直至轉(zhuǎn)發(fā)數(shù)極低或者為零。
由此,本研究對(duì)核心傳播者的信息傳播模型借由Wang等人[5]的思想:在信息傳播初期,單位時(shí)間內(nèi)核心傳播者帶動(dòng)的轉(zhuǎn)發(fā)數(shù)為冪律衰減函數(shù),隨后核心傳播者的影響力和信息新鮮度下降,轉(zhuǎn)發(fā)數(shù)又呈現(xiàn)出指數(shù)衰減。因此將核心傳播者的信息傳播過(guò)程表示如下:
其中,F(xiàn)0,α,τ為預(yù)估參數(shù)。F0為用戶初始影響力,在本研究中,其決定因素為結(jié)構(gòu)特征;α為核心傳播者的影響力衰減速度,τ為核心傳播者影響力的持續(xù)時(shí)間,二者的大小是信息傳播過(guò)程中多種因素交織的結(jié)果,在本研究中簡(jiǎn)化為由結(jié)構(gòu)特征、內(nèi)容特征和微博轉(zhuǎn)發(fā)時(shí)間決定。3.5.2 預(yù)測(cè)單條微博傳播規(guī)模
本研究將數(shù)據(jù)集中的30條熱門(mén)微博分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練集內(nèi)微博數(shù)量為22,用來(lái)得到各個(gè)核心傳播者的參數(shù);測(cè)試集內(nèi)微博數(shù)量為8,用來(lái)預(yù)測(cè)核心傳播者的單條微博傳播規(guī)模。
對(duì)訓(xùn)練集中的所有核心傳播者分別用公式(6)進(jìn)行非線性最小二乘擬合,得到各個(gè)核心傳播者的信息傳播模型參數(shù),并利用相關(guān)系數(shù)R2進(jìn)行擬合效果的評(píng)價(jià)。由于測(cè)試集中的核心傳播者不一定出現(xiàn)在訓(xùn)練集中,所以當(dāng)預(yù)測(cè)一個(gè)新的核心傳播者的傳播規(guī)模時(shí),需要計(jì)算其與已知核心傳播者的差異。
本研究選用粉絲數(shù)、關(guān)注數(shù)、情感值、文本相關(guān)值和轉(zhuǎn)發(fā)時(shí)間距原微博發(fā)布時(shí)間的時(shí)間間隔五個(gè)特征來(lái)度量用戶屬性。對(duì)數(shù)據(jù)用式(2)進(jìn)行標(biāo)準(zhǔn)化處理,得到用戶之間的距離計(jì)算公式為:
其中,x1k、x2k分別為用戶1和用戶2在第k維度的特征值。選取與當(dāng)前核心傳播者距離最小的核心傳播者的參數(shù)作為前者的參數(shù),從而預(yù)測(cè)當(dāng)前核心傳播者單條微博的傳播規(guī)模。綜上,本研究的研究思路與流程如附錄A圖6所示。
四、研究結(jié)果與發(fā)現(xiàn)
4.1 數(shù)據(jù)集
本研究使用微博提供的基于30條熱門(mén)微博的全部傳播數(shù)據(jù)及參與傳播的賬號(hào)關(guān)系,附錄B表1為數(shù)據(jù)的基本概要,附錄A圖7為30條微博的主題分類(lèi)。
4.2 綜合評(píng)價(jià)體系的構(gòu)建
本研究邀請(qǐng)了傳播學(xué)和大數(shù)據(jù)方向的專(zhuān)家進(jìn)行對(duì)評(píng)價(jià)體系進(jìn)行研判,被調(diào)查者結(jié)合輿情傳播理論和自身經(jīng)驗(yàn)對(duì)影響指標(biāo)因素,進(jìn)行最小、中間、最大比值的三值評(píng)分,進(jìn)而通過(guò)三角模糊法進(jìn)行模糊層次分析,表1和附錄A圖8為得到的各指標(biāo)權(quán)重。
4.3 核心傳播者挖掘結(jié)果
綜合評(píng)價(jià)體系中,結(jié)果特征、傳播特征均通過(guò)python的pandas等數(shù)據(jù)分析庫(kù)在源數(shù)據(jù)中進(jìn)行定向抓取。情感分析采用keras進(jìn)行LSTM模型的訓(xùn)練并利用模型挖掘。以第26條微博“少年的你”數(shù)據(jù)結(jié)果為例,按PageRank排名取前十位核心傳播者見(jiàn)附錄B表2。
4.4 核心傳播者挖掘結(jié)果驗(yàn)證與對(duì)比分析
為驗(yàn)證核心傳播者挖掘算法的有效性,本研究嘗試通過(guò)微博文本內(nèi)容手動(dòng)檢索實(shí)際微博及挖掘出的核心用戶的有效信息,利用檢索結(jié)果以及微熱點(diǎn)分析結(jié)果,開(kāi)展如下對(duì)比分析。
4.4.1 核心用戶信息溯源
以第26條微博為例,本研究根據(jù)用戶的轉(zhuǎn)發(fā)數(shù)據(jù)以及文本內(nèi)容于微博平臺(tái)進(jìn)行信息溯源,并完成以下驗(yàn)證:
(1)關(guān)鍵轉(zhuǎn)發(fā)者大多擁有一定規(guī)模粉絲量。最小粉絲規(guī)模2000+,最大粉絲規(guī)模45.6萬(wàn)+;
(2)關(guān)鍵轉(zhuǎn)發(fā)者為該相關(guān)話題知名賬號(hào),大多擁有新浪官方認(rèn)證、活躍用戶、粉絲大咖等標(biāo)識(shí)。例如用戶@我親愛(ài)的擁有和虛無(wú)(即附錄B表3核心轉(zhuǎn)發(fā)者排名第二,用戶ID為b672fadcb306797bbba44cae1ecf576 5);
(3)分析所得賬號(hào)的發(fā)博頻率和轉(zhuǎn)發(fā)互動(dòng)率均有較好表現(xiàn)。例如用戶@赤頰(即附錄B表3核心轉(zhuǎn)發(fā)者排名第九,用戶ID為4cd45eb84d5a48e142011b8 1af4f044f)。
綜上,在用戶粉絲規(guī)模、賬號(hào)特征和屬性、賬號(hào)活躍度和粉絲互動(dòng)率等方面進(jìn)行綜合評(píng)測(cè),認(rèn)為以上關(guān)鍵轉(zhuǎn)發(fā)者符合本研究的核心傳播者意義。
4.4.2 與微熱點(diǎn)進(jìn)行對(duì)比分析
本研究依托微博分析工具微熱點(diǎn)(微輿情)對(duì)原始微博進(jìn)行“微博傳播分析”,結(jié)果見(jiàn)附錄A圖9,與本研究結(jié)果對(duì)比可得:前十名的核心傳播者中,前五名結(jié)果一致,六至十名用戶一致但排名稍有變動(dòng),原因?yàn)檠芯糠椒ㄅc微熱點(diǎn)統(tǒng)計(jì)方法存在差異。
即微熱點(diǎn)中各引爆點(diǎn)的參考依據(jù)僅為二次轉(zhuǎn)發(fā)數(shù)量這一指標(biāo),而本研究所使用的方法,除此之外加入對(duì)用戶關(guān)注及粉絲數(shù)、是否為粉絲轉(zhuǎn)發(fā)、文本相關(guān)度及內(nèi)容情感的參考,使得其更符合本研究對(duì)核心傳播者的定義。本研究作法也使得數(shù)據(jù)的參考價(jià)值局不限于單條微博,在微博的大輿論環(huán)境中,考慮核心傳播者本身所具備的能量。
綜上,綜合判定該研究方法所得結(jié)果符合要求并具有一定通用性。
4.5 單條微博規(guī)模預(yù)測(cè)結(jié)果
在得到所有已知核心傳播者之后,便可以對(duì)訓(xùn)練集中的核心傳播者模型參數(shù)進(jìn)行擬合并存儲(chǔ),然后對(duì)測(cè)試集中的核心傳播者的傳播規(guī)模進(jìn)行預(yù)測(cè)。
具體流程如附錄A圖10所示。其中,為更合理地預(yù)測(cè)實(shí)時(shí)消息,在當(dāng)前核心傳播者轉(zhuǎn)發(fā)微博后,等待10分鐘,獲取其該微博的被轉(zhuǎn)發(fā)數(shù),用如下公式計(jì)算其相對(duì)初始影響力:
其中F0為數(shù)據(jù)庫(kù)中核心傳播者的初始影響力,N10為數(shù)據(jù)庫(kù)中核心傳播者在10分鐘內(nèi)的被轉(zhuǎn)發(fā)數(shù)。之后便可用公式(6)計(jì)算當(dāng)前核心傳播者的傳播規(guī)模。附錄A圖11為對(duì)測(cè)試集中的一條微博的8位關(guān)鍵傳播者進(jìn)行的傳播規(guī)模預(yù)測(cè),觀察可知本方法較好地預(yù)測(cè)了各個(gè)核心傳播者的傳播規(guī)律與規(guī)模,在最終傳播規(guī)模的預(yù)測(cè)上,8位關(guān)鍵傳播者實(shí)際引發(fā)了1152次轉(zhuǎn)發(fā),而根據(jù)模型預(yù)測(cè)的最終值為1340,準(zhǔn)確率達(dá)到83.68%。
五、研究結(jié)論和討論
實(shí)驗(yàn)及分析比對(duì)結(jié)果表明,本研究能夠準(zhǔn)確挖掘到核心傳播者,所提模型和方法,也能夠較好地刻畫(huà)意見(jiàn)領(lǐng)袖在消息傳播過(guò)程中所起到的作用,能夠較好地對(duì)單條微博的傳播趨勢(shì)和規(guī)模進(jìn)行預(yù)測(cè),這對(duì)于微博中公眾輿論的引導(dǎo)以及廣告定點(diǎn)投放等具有重要意義。
在構(gòu)建模型和挖掘核心傳播者的過(guò)程中,我們也可以發(fā)現(xiàn),核心傳播者具有區(qū)別于其他普通傳播者的特征,例如:一定數(shù)量的粉絲規(guī)模和關(guān)注數(shù),發(fā)布的博文質(zhì)量更高,能夠帶動(dòng)更大的轉(zhuǎn)發(fā)量等。
由于篇幅限制,部分研究方法細(xì)節(jié)和實(shí)驗(yàn)結(jié)果說(shuō)明難以得到充分展示。
本研究也存在不足之處:第一,模糊層次分析法包含專(zhuān)家的主觀判斷,無(wú)法徹底避免評(píng)價(jià)的主觀性;第二,研究缺乏更全面的用戶行為數(shù)據(jù)且數(shù)據(jù)量較小,所以難以更精準(zhǔn)地挖掘出核心傳播者,傳播規(guī)模預(yù)測(cè)效果有待進(jìn)一步提高。這些將是本研究的未來(lái)改進(jìn)方向。
參考文獻(xiàn)
[1]Song K,Wang D,F(xiàn)eng S,et al.Detecting opinion leader dynamically in Chinese news comments[A].Web-Age Information Management[M].Berlin Heidelberg: Springer,2012. 197-209[2] 陳淑娟,徐雅斌.面向主題社團(tuán)的意見(jiàn)領(lǐng)袖挖掘方法[J/OL].計(jì)算機(jī)工程與應(yīng)用:1-11[2020-05-31].http: //kns.cnki.net/kcms/detail/11.2127.TP.20200109.1653.006.html.
[3]馮勇,馬宇光,劉建.微博營(yíng)銷(xiāo)中融合行為分析的重要用戶發(fā)現(xiàn)方法[J].小型微型計(jì)算機(jī)系統(tǒng),2019,40(0 8):1646-1651.
[4] 高金華,劉悅,程學(xué)旗.去中心化的微博傳播動(dòng)力學(xué)建模[J].中國(guó)科學(xué):信息科學(xué),2018, 048(011):P.1575-1588.
[5] WANG Chenxu, GUAN Xiaohong, QIN Tao, ZHOU Yadong. Modeling on Opinion Leader’s Influence in Microblog Message Propagation and Its Application[J]. Journal of Software, 2015, 26(6): 1473-1485
附錄A
圖1 社交網(wǎng)絡(luò)拓?fù)鋱D
圖2粉絲數(shù)分布情況
圖3 LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行情感分類(lèi)的準(zhǔn)確率與損失函數(shù)
圖4 文本情感極性分析流程
圖5一條典型的核心傳播者帶動(dòng)的微博的傳播模式
圖6 本研究的研究思路與流程
圖7 30條微博主題分類(lèi)
圖8 各指標(biāo)權(quán)重可視化
圖9 微熱點(diǎn)分析意見(jiàn)領(lǐng)袖圖
(截至截圖時(shí)間2020年05月26日數(shù)據(jù))
圖10 傳播規(guī)模預(yù)測(cè)流程
圖11 單條微博核心傳播者傳播規(guī)模預(yù)測(cè)結(jié)果
圖12 30條微博部分核心傳播者傳播規(guī)模預(yù)測(cè)結(jié)果
附錄B
本文由 @數(shù)據(jù)鍋 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于CC0協(xié)議。
這學(xué)期學(xué)了數(shù)據(jù)挖掘課程,講到作者提到的一些方法,運(yùn)用得真好??
寫(xiě)的挺好的,這類(lèi)方法應(yīng)該也能運(yùn)用到識(shí)別煽動(dòng)輿論的人群中惡意助推者和被煽動(dòng)者之間的特征,有助于政府或官方在處理公共事件時(shí)精準(zhǔn)打擊切斷傳播途徑。
太牛了!這是碩士論文?
太專(zhuān)業(yè)了,看不懂啊??