以《大秦帝國(guó)之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

16 評(píng)論 69063 瀏覽 52 收藏 50 分鐘

本文作者將以《大秦帝國(guó)之崛起》作為分析對(duì)象,來詳細(xì)闡述在大數(shù)據(jù)時(shí)代數(shù)據(jù)分析會(huì)涉及到的全網(wǎng)輿情分析、微博傳播分析以及文本挖掘。

今年開年,拖延上映的《大秦帝國(guó)之崛起》(以下簡(jiǎn)稱為“崛起”),終于在劇迷的千呼萬喚中播出。

這部根據(jù)孫皓暉同名小說改編的電視劇是“大秦帝國(guó)”系列的第三部,首部《大秦帝國(guó)之裂變》,第二部《大秦帝國(guó)之縱橫》分別于2009年、2013年播出,均獲得不錯(cuò)的口碑,第三部《大秦帝國(guó)之崛起》因?yàn)樯厦娴脑蚨a(bǔ)拍,直到今年年初才在央視開播。

本文將以該劇作為分析對(duì)象,來詳細(xì)闡述在大數(shù)據(jù)時(shí)代數(shù)據(jù)分析會(huì)涉及到的三個(gè)“子課題”:

  • 全網(wǎng)的輿情分析:基于全網(wǎng)媒體或網(wǎng)民關(guān)于該劇的探討,進(jìn)行“Social Listening(社會(huì)化聆聽)”,了解該劇整體口碑概況
  • 微博傳播分析:基于新浪微博某條對(duì)于該劇具有重大影響力的微博的傳播情況,了解該條微博的傳播規(guī)律,互動(dòng)粉絲的畫像,以及水軍的辨識(shí)
  • 文本挖掘:通過對(duì)該劇相關(guān)非結(jié)構(gòu)化文本數(shù)據(jù)的分析,了解其獲得觀眾較高認(rèn)可的原因

在接下來的分析中,筆者將結(jié)合分析工具(新浪微輿情、頭條媒體實(shí)驗(yàn)室、Python、Gephi等)、分析思路(分析角度和分析流程)、業(yè)務(wù)知識(shí)(對(duì)該劇的了解和原著小說的認(rèn)知),來談?wù)勔粋€(gè)完整的數(shù)據(jù)分析case如何完成,上面所涉及的3個(gè)子課題是本文分析的重點(diǎn)。下圖是本文的主要內(nèi)容和文章結(jié)構(gòu):

1“崛起”的全網(wǎng)輿情分析

1.1 全網(wǎng)關(guān)注情況

(1)“崛起”的全網(wǎng)關(guān)注度走勢(shì)

因?yàn)樵搫〔コ龅臅r(shí)間段是2017-2-9~2017-3-6,故筆者選取了在該劇播出前后略有延展的時(shí)間區(qū)間,以便觀察這段時(shí)間內(nèi)關(guān)于該劇的全網(wǎng)信息量走勢(shì)。

大秦帝國(guó)之崛起全網(wǎng)關(guān)注度走勢(shì)圖(2-1~3-13)

從全網(wǎng)總體的關(guān)注度來看,在電視劇播出前的關(guān)注量較少,而在電視劇播出期間的關(guān)注度(有關(guān)該劇的網(wǎng)絡(luò)信息量)陡然上升,在播出的第一天(2017-2-9)關(guān)注度就出現(xiàn)了明顯在上升。在該劇在播出結(jié)束后(2017-3-6),信息量逐漸減少,呈下降趨勢(shì)。

(2)“崛起”的全網(wǎng)關(guān)注度來源

從各信息發(fā)布渠道的表現(xiàn)來看,該劇在微博(新浪微博和騰訊微博)上的信息量占據(jù)主導(dǎo)地位,“二次崛起”后的微博仍是娛樂影視的主陣地,是粉絲與主創(chuàng)團(tuán)隊(duì)進(jìn)行互動(dòng)的首選。下圖是“崛起”的全網(wǎng)信息量來源構(gòu)成。

除去微博的信息之后,則可以看到除微博(新浪微博和騰訊微博)以外哪些信息渠道關(guān)于該劇的討論量較多。

由此可以看出,新浪博客、百度貼吧這樣的泛娛樂化社區(qū)關(guān)于該劇的討論也頗多,前者濫觴于明星入駐,是全國(guó)最主流,人氣頗高的博客頻道之一;而百度貼吧是全球最大的中文社區(qū),是“粉絲文化”的催化劑。百度貼吧的迅速走紅,是與“粉絲”及“粉絲文化”的流行緊密相關(guān)的,而在“粉絲文化”的發(fā)展過程中,百度貼吧也起到了重要作用。

1.2 全網(wǎng)關(guān)于“崛起”的關(guān)注點(diǎn)

(1)“崛起”的全網(wǎng)信息形成的關(guān)鍵詞云

以下是全網(wǎng)關(guān)于“崛起”的文本信息的關(guān)鍵詞提取,總計(jì)有60個(gè),這些關(guān)鍵詞來自于媒體報(bào)道,抑或用戶UGC評(píng)論,從中我們可以發(fā)現(xiàn)網(wǎng)路上關(guān)于該劇的討論集中在哪些關(guān)鍵點(diǎn)上。

從上圖中可以看出,除了本劇的片名—“大秦帝國(guó)”以外,還有一些比較反映該劇特征的詞匯,根據(jù)筆者對(duì)該劇的了解,特挑出其中主要的兩類詞匯:

  • 劇集相關(guān):“收視”和“收視率”(在無大規(guī)模宣傳的情況下,收視率一路走高)、“拍戲”、“張博”(飾演秦昭襄王嬴稷的演員)、“導(dǎo)演”、“劇本”、“創(chuàng)作”、“花絮”、“創(chuàng)作者”
  • 該劇的意義:“文化”、“歷史”、“陜西”、“國(guó)家”、“文明”、“秦國(guó)”、“正劇”、“大秦”,(這類詞匯能在一定程度上代表該劇想要表達(dá)的價(jià)值觀—居今之世,志古之道,所以自鏡,拒絕戲說,尊史重實(shí))

(2) 與“崛起”相關(guān)的關(guān)聯(lián)詞分析

全網(wǎng)事件的熱度信息關(guān)聯(lián)詞分析,它是通過系統(tǒng)自動(dòng)運(yùn)算找出事件核心詞、并計(jì)算出與核心詞同時(shí)出現(xiàn)關(guān)聯(lián)度最高的高頻詞,也就是與核心詞共現(xiàn)頻率最高的詞匯(關(guān)于“共現(xiàn)”的原理介紹,請(qǐng)看《如何用數(shù)據(jù)分析,搞定新媒體運(yùn)營(yíng)的定位和內(nèi)容初始化?》的第三部分)。

假若讀者看過該劇,從上面的關(guān)聯(lián)詞即可看出,該劇的“正劇”屬性確鑿無疑,是一部獨(dú)具匠心的佳??!

(3)與“崛起”相關(guān)的熱門文章

這里的關(guān)于“熱門”文章的定義主要是通過三個(gè)維度綜合得出,即閱讀量、轉(zhuǎn)發(fā)量和評(píng)論量的綜合評(píng)價(jià)。

上面有7篇個(gè)熱門文章,它們?cè)谌W(wǎng)信息中的綜合得分(閱讀量、轉(zhuǎn)發(fā)量和評(píng)論量)最高。從這幾篇文章的標(biāo)題可以看出,它們主要以預(yù)告即將播出的劇集的劇情為主,關(guān)于劇中主要人物的出場(chǎng)及情節(jié)預(yù)告居多,由此可見該劇的關(guān)注度較高。

1.3 關(guān)注網(wǎng)民的人群畫像

以下數(shù)據(jù)來源于選自“頭條媒體實(shí)驗(yàn)室”,基于今日頭條7億累計(jì)激活用戶,7800萬日活用戶(截至2016年12月底)的海量行為數(shù)據(jù)及文章數(shù)據(jù)。鑒于今日頭條龐大的用戶數(shù)量,對(duì)其相關(guān)人群進(jìn)行分析可以起到“管中窺豹”、“一葉知秋”的效用。如果該用戶點(diǎn)擊并閱讀跟“大秦帝國(guó)之崛起”影視相關(guān)的文章,則判定該用戶對(duì)該劇感興趣。

(1) 關(guān)注網(wǎng)民的性別滲透率及年齡滲透率

此處,用滲透率(度)來表示用戶對(duì)特定事件關(guān)注度的比例,而非絕對(duì)值。有可能出現(xiàn)的情況是:一個(gè)人口稀少的地區(qū)有一百個(gè)人的人關(guān)注了某事件,相比一個(gè)人口大省有一萬人關(guān)注該話題,計(jì)算得到的滲透率(度)可能更高。

以下是這兩類滲透率的計(jì)算公式:

  • 性別滲透率:某性別用戶對(duì)關(guān)鍵詞的關(guān)注度/全網(wǎng)該性別用戶總關(guān)注度
  • 年齡滲透率:某年齡段用戶關(guān)鍵詞的關(guān)注度/全網(wǎng)該年齡段用戶總關(guān)注度

從上圖可以看出,“崛起”的男觀眾要多于女觀眾,當(dāng)然這也在預(yù)料之中。年齡方面,青年群體(18-30)對(duì)該劇的熱衷程度要比想象中的高,說明在當(dāng)今這樣一個(gè)盛行“宮斗撕逼瑪麗蘇”、“手撕鬼子褲腰藏雷”和“玄幻科幻架空歷史”的戲說歷史、全民娛樂時(shí)代,大家還是蠻希望有良心、有匠心、不浮躁的優(yōu)秀劇集出現(xiàn),并不是“劣幣驅(qū)逐良幣”或者是一味的迎合大眾口味的“糙劇”。

(2)關(guān)注網(wǎng)民的地域分布

意料之外,情理之中,這部主創(chuàng)團(tuán)隊(duì)(原著小說作者、導(dǎo)演、制片人)全部是“秦人”(陜西人)的影視劇,陜西地區(qū)的受眾關(guān)注度(閱讀量、轉(zhuǎn)發(fā)量、評(píng)論量等)最高。

“大秦帝國(guó)”系列電視劇,展現(xiàn)了一幅波瀾壯闊的圖景:

在一個(gè)熱血的時(shí)代,一個(gè)積貧積弱的偏蠻小國(guó)由幾代秦國(guó)人奮發(fā)圖強(qiáng),秉承著“赳赳老秦,共赴國(guó)難,血流不干,誓不休戰(zhàn)”的大無畏精神,歷經(jīng)磨難終于實(shí)現(xiàn)大國(guó)夢(mèng)。

出于對(duì)祖先的崇敬和身為秦人后裔的自豪,陜西地區(qū)的網(wǎng)民對(duì)于該劇的關(guān)注度高不足為奇。

(3) 關(guān)注網(wǎng)民的興趣圖譜

該部分度量了關(guān)注“崛起”的受眾的整體興趣情況,同樣是根據(jù)他們閱讀文章的類別(如“科技”、“歷史”等)來進(jìn)行判斷的,以此為指標(biāo)對(duì)各興趣類別在關(guān)注該話題的人群中從高到低進(jìn)行排序。

“用戶興趣”的計(jì)算公式:

某興趣類別的用戶對(duì)關(guān)鍵詞的關(guān)注度/某興趣類別用戶總關(guān)注度

在這里,興趣圖譜分為3層,越往下分則越細(xì)致。結(jié)合上面的年齡、性別和地域因素,從這些興趣圖譜中,我們能得到關(guān)于受眾人群更為深層的洞察。

通過上面對(duì)受眾興趣圖譜層層遞進(jìn)的“鉆取”,我們可以看到,他們主要的興趣有“國(guó)際足球”、“中國(guó)古代史”、“電影”、“中國(guó)足球”、“NBA”、“購房”和“法律”。結(jié)合先前的2個(gè)人群畫像維度,可以判斷出喜愛《大秦帝國(guó)之崛起》的人群是一些酷愛歷史(尤其是中國(guó)古代史)、和運(yùn)動(dòng),且具有一定經(jīng)濟(jì)實(shí)力的中青年群體,他們具有較高的文化素養(yǎng)。

2“崛起”的熱門微博傳播分析

在前面的全網(wǎng)輿情分析中筆者有提到,該?。ㄆ鋵?shí)大部分影視劇皆是如此)在微博上的聲量極高,所以筆者在這一部分著重描述下它在微博上的聲量表現(xiàn)。

其實(shí),造成微博上聲量較大的原因,絕大部分是因?yàn)橛脩魠⑴c轉(zhuǎn)發(fā)或是評(píng)論了某條微博,每一條轉(zhuǎn)發(fā)和評(píng)論都被視為一個(gè)用戶UGC。而微博文本每天13萬的日發(fā)博量和短視頻每天的32萬日發(fā)布數(shù)量,這兩方面每天形成的內(nèi)容體量是相當(dāng)龐大的。(新浪微博2016年年終數(shù)據(jù))

又因?yàn)?,微博上“注意力資源”分配極不均勻,少數(shù)大V博主擁有龐大的粉絲資源,他們發(fā)布的內(nèi)容往往能引起微博上廣大民眾的討論,能造成極大的影響力。

鑒于此,筆者選擇了微博上一個(gè)關(guān)于影視娛樂的自媒體大v—“l(fā)ow君熱劇”,該賬號(hào)曾傳播過一條跟“崛起”相關(guān)的微博,用戶互動(dòng)較為活躍,權(quán)當(dāng)“解剖麻雀”之用。

筆者選取了一條帶視頻的微博,下面的播放量、轉(zhuǎn)發(fā)量、評(píng)論量和點(diǎn)贊量都較為可觀??梢宰鳛槲⒉﹤鞑シ治龅囊粋€(gè)例子。

以下關(guān)于該條微博的傳播分析,數(shù)據(jù)來源及相關(guān)可視化呈現(xiàn)皆來自于新浪微輿情的微博傳播分析(微分析)功能模塊。

2.1?傳播概況

截至分析時(shí)間03-18 11:50,@low君熱劇?的微博共收獲轉(zhuǎn)發(fā)數(shù)13,393次(其中有效轉(zhuǎn)發(fā)10,576次)、 評(píng)論數(shù)2,209條,點(diǎn)贊數(shù)29,646個(gè)。

此外,該條微博的覆蓋人次為20,260,770,包括原創(chuàng)者(也就是“l(fā)ow君熱劇”)和轉(zhuǎn)發(fā)者的粉絲數(shù)的疊加,當(dāng)然也免不了重復(fù)計(jì)算,但整體的傳播效果是驚人的。注意,這是沒有排除水軍的數(shù)據(jù)。

內(nèi)容敏感度為0.27%,也就是說,關(guān)于該條微博的用戶評(píng)論中僅有0.27%的評(píng)論是呈負(fù)面的,這個(gè)量很小。

值得注意的是,原創(chuàng)者“l(fā)ow君熱劇”自身是此條微博的關(guān)鍵傳播用戶,這個(gè)看起來有點(diǎn)費(fèi)解,筆者會(huì)在下面有詳述。

2.2?轉(zhuǎn)發(fā)評(píng)論趨勢(shì)

一條微博的傳播是有生命周期的。能夠十分清晰的觀察到該微博轉(zhuǎn)發(fā)、評(píng)論的發(fā)展趨勢(shì),微博的互動(dòng)及散播活躍與否,以及處于生命周期的哪個(gè)階段(引發(fā)期、醞釀期、發(fā)生期、發(fā)展期、高潮期、處理期、平息期和反饋期),對(duì)于及時(shí)、準(zhǔn)確研判事件及輿情走向起到至關(guān)重要的作用。

從上圖可以看出,該微博于03-17 12:05發(fā)布后,于03-17 12:30、03-17 23:30達(dá)到轉(zhuǎn)發(fā)、評(píng)論高峰,轉(zhuǎn)發(fā)峰值516條、評(píng)論峰值34條,此后微博傳播速度逐漸降低。

同時(shí),意見領(lǐng)袖也是在該條微博的傳播高峰期進(jìn)行活躍的,圖中深黃色的圓圈即代表它們引起的轉(zhuǎn)發(fā)量。

2.3?傳播層級(jí)

轉(zhuǎn)發(fā)層級(jí)可以看出某個(gè)微博傳播滲透力的強(qiáng)弱,層級(jí)越多,代表話題的滲透性和傳播性越強(qiáng),微博粉絲的參與度也就越高。

本條微博的傳播層級(jí)為5級(jí),在傳播深度上一般,滲透力不足,說明本話題以及該劇屬于小眾圈子。

值得注意的是,在剔除掉水軍及僵尸粉之類的用戶后,該條微博的覆蓋人次變更為18,070,952,跟初始覆蓋人次相差了100多萬的人次數(shù)。

在這里,原創(chuàng)者“l(fā)ow君熱劇”有重復(fù)出現(xiàn)多次,這是為什么呢?請(qǐng)接著往下看。

2.4?傳播路徑

微博傳播路徑分析是微博傳播分析中的重中之重,分析微博傳播路徑圖能發(fā)現(xiàn)其中的關(guān)鍵傳播樞紐節(jié)點(diǎn)(意見領(lǐng)袖)和識(shí)別傳播質(zhì)量。

下圖是傳播路徑圖中常見的三種傳播節(jié)點(diǎn)類型。

聯(lián)系Malcolm Gladwell在《引爆點(diǎn)”(The Tipping Point)》中提出的觀點(diǎn),原創(chuàng)節(jié)點(diǎn)、傳播節(jié)點(diǎn)和長(zhǎng)尾節(jié)點(diǎn)非常接近其表述的、在某類流行事件中的三種主要角色:

  • 聯(lián)系員:就是那種“認(rèn)識(shí)了很多人的人”,這類人把朋友當(dāng)作郵票一樣地搜集,隨時(shí)與人保持聯(lián)系,這個(gè)角色可以把信息快速的散布出去。
  • 內(nèi)行:就是那種“什么都懂的人”,他對(duì)某一種知識(shí)可以說是“達(dá)人”,不厭其煩地把相關(guān)的知識(shí)與朋友分享,但是卻沒有很好的說服力。這個(gè)角色對(duì)某件事情的狂熱,使他所發(fā)掘出來的事情成為有價(jià)值的。
  • 推銷員:就是那種“什么人都能夠說服的人”這種人沒有很深的知識(shí),但是有特殊的能力讓見到面的人在短暫的時(shí)間就交付信任。這個(gè)角色能夠把內(nèi)行發(fā)現(xiàn)的東西與人們以簡(jiǎn)易的語言溝通。

稍有差異的是,處在長(zhǎng)尾節(jié)點(diǎn)位置的粉絲,多半是被動(dòng)的接收者,傳播層級(jí)到他們這里基本戛然而止,但如果長(zhǎng)期接收某一類事物信息,他們也會(huì)變成該事物的忠實(shí)擁簇,會(huì)轉(zhuǎn)變?yōu)槁?lián)系人或者內(nèi)行。

從微博傳播分析系統(tǒng)上獲取傳播節(jié)點(diǎn)相關(guān)的數(shù)據(jù)之后,筆者利用復(fù)雜網(wǎng)絡(luò)分析工具Gephi,基于Fruchterman Reingold的力導(dǎo)向算法和Modularity Class的譜聚類算法,得到了如下能反映該條微博傳播路徑及傳播社群關(guān)系的微博傳播路徑圖。(Gephi詳細(xì)使用方法請(qǐng)參看《萬字干貨|10款數(shù)據(jù)分析“工具”,助你成為新媒體運(yùn)營(yíng)領(lǐng)域的“增長(zhǎng)黑客”》)

從上圖可以看出,“l(fā)ow君熱劇”在該條微博的傳播過程中出現(xiàn)了很多次,而且其中呈明黃色的樞紐傳播節(jié)點(diǎn)也是本尊。那究竟它們是同一個(gè)賬號(hào)轉(zhuǎn)發(fā)了很多次呢,還是同名但不同賬號(hào)各自發(fā)布了一條信息呢?我們接著往下看。

調(diào)出關(guān)于傳播節(jié)點(diǎn)的基礎(chǔ)數(shù)據(jù),得到下面關(guān)于本條微博TOP轉(zhuǎn)發(fā)20的列表。

從上表可以看出,在轉(zhuǎn)發(fā)數(shù)TOP20中,“l(fā)ow君熱劇”包攬了狀元、榜眼、探花和傳臚這前四名。第一列的的“發(fā)布微博ID”代表某個(gè)賬號(hào)將本條微博重新轉(zhuǎn)發(fā),形成一條新的微博(ID)。因而,“l(fā)ow君熱劇”在本條微博的傳播中,總共發(fā)布了4次,將“聯(lián)系人”“內(nèi)行”和“推銷員”的角色都過了一遍,而且二次轉(zhuǎn)發(fā)效果上佳,不得不說,只有這樣粉絲過百萬且活躍度極高的微博大v才能這么玩,而且玩的不亦樂乎!

2.5?互動(dòng)粉絲畫像分析

筆者把傳播者分為兩類,即轉(zhuǎn)發(fā)者和評(píng)論者,將二者分別進(jìn)行分析。

一般來說,如果沒有水軍操作的話,這兩類群體的屬性應(yīng)該基本一致。評(píng)論者的互動(dòng)意愿更強(qiáng),且機(jī)器操作的難度較大。

(1)轉(zhuǎn)發(fā)者和評(píng)論者的性別分析

從上圖可以看出,轉(zhuǎn)發(fā)者和評(píng)論者的性別占比趨近一致,都是女性壓倒性的超過男性。貌似和該劇面向的群體不太一樣,不過,我們需要知道的是,“l(fā)ow君熱劇”平時(shí)發(fā)布的關(guān)于影視劇的微博之類繁復(fù),像《大秦帝國(guó)之崛起》這種風(fēng)格的影視劇不是主流,平時(shí)它的畫風(fēng)是這樣的:

這樣就不難理解,為何歷史正劇互動(dòng)的女粉絲較多,因?yàn)檫@個(gè)大v平時(shí)吸聚的粉絲多半是女性群體~

(2)轉(zhuǎn)發(fā)者和評(píng)論者的地域分布

從上圖看來,轉(zhuǎn)發(fā)者和評(píng)論者的地域分布差異較大,轉(zhuǎn)發(fā)者集中在東北黑龍江,而評(píng)論者主要集中在南方。聯(lián)系前面的傳播路徑分析,該條微博人為干預(yù)較為突出。

(3)轉(zhuǎn)發(fā)者和評(píng)論者的興趣標(biāo)簽

從上圖可以看出,該條轉(zhuǎn)發(fā)群體和評(píng)論群體的興趣圖譜幾近一致—都是熱愛生活、喜好休閑娛樂的樂活一族。

綜合上述關(guān)于微博傳播分析的5個(gè)維度,本條微博的傳播有輕微人為干預(yù),不是大面積的商業(yè)推動(dòng)行為,微博傳播情況正常。

3 原著相關(guān)的文本分析

在本部分,筆者選取了《大秦帝國(guó)之崛起》相關(guān)的原著小說進(jìn)行分析,即《大秦帝國(guó)之金戈鐵馬》。

與影視劇不同的是,原著小說交代了秦昭襄王嬴稷上位前的一段經(jīng)過,比如秦武王討伐東周并舉鼎而亡,以及秦宣太后和嬴稷質(zhì)于燕,等等。

以下筆者就從文本挖掘的角度來分析一下原著小說、觀眾影評(píng)等方面的文本分析。

不過,在進(jìn)行正式的分本分析前,需要對(duì)原著小說文本進(jìn)行預(yù)處理,也就是:

  • 詞匯替換:同一個(gè)人名的不同稱謂
  • 中文分詞:一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞
  • 停用詞過濾:過濾掉2類“無意義”的詞匯:一類是人類語言中包含的功能詞,這些功能詞極其普遍,與其他詞相比,功能詞沒有什么實(shí)際含義,比如’你’、’我’、’的’、’或者’、’而是’等;另一類詞包括詞匯詞,比如’想要’、‘打開’等,這些詞應(yīng)用十分廣泛,對(duì)于揭示特定文本的含義的重要性意義不大

此外,還需要統(tǒng)一原著中的人名稱謂,將在文本中具有多個(gè)稱呼的人物統(tǒng)一為一個(gè)名稱,便于精準(zhǔn)的統(tǒng)計(jì)人物出現(xiàn)的頻次及其相關(guān)關(guān)系。

人物名稱替換表見下表。

預(yù)處理效果如下圖所示:

3.1 原著小說的關(guān)鍵詞提取

筆者沒采取一般文本分析時(shí)所采用的詞頻統(tǒng)計(jì),因?yàn)樵~頻統(tǒng)計(jì)的邏輯是:一個(gè)詞在文章中出現(xiàn)的次數(shù)越多,則它就越重要。但筆者采用的是TF-IDF(term frequency–inverse document frequency)關(guān)鍵詞統(tǒng)計(jì)方法:它用以評(píng)估一字/詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度,字/詞的重要性會(huì)隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語料庫中出現(xiàn)的頻率成反比下降。

由此可見,在提取某段文本的關(guān)鍵信息時(shí),關(guān)鍵詞提取較詞頻統(tǒng)計(jì)更為可取,能提取出對(duì)某段文本具有重要意義的關(guān)鍵詞。

以下是該原著小說的關(guān)鍵詞TOP300,筆者用電視劇的海報(bào)作為詞云輪廓,大家可以在詞云中看到關(guān)鍵的信息,和電視劇“崛起”做一下對(duì)照。

在關(guān)鍵詞TOP100中,基本上都是跟秦國(guó)/秦軍相關(guān)的詞,秦國(guó)君臣秦昭襄王嬴稷、秦武王、范睢、白起、魏冉和甘茂等;秦國(guó)的死對(duì)頭—齊國(guó)、趙國(guó)和楚國(guó)等;一些重要的他國(guó)人物,魯仲連、藺相如、廉頗、春申君和趙奢等…

等等,“魯仲連”什么鬼?電視劇里壓根沒瞧見哪!

這就涉及《大秦帝國(guó)之崛起》的原著小說和電視劇本身的差異了,它們的差別是顯而易見,甚至在第二部和第三部被“摒棄”出制作團(tuán)隊(duì)的原著小說作者孫皓暉也說,“電視劇相較原著改編幅度太大,完全可以另外取個(gè)名字” 。

綜合來看,筆者認(rèn)為,電視劇和原著小說不同之處主要集中在如下方面:

  1. 內(nèi)容起始不同。原著中第三部以秦武王即位后發(fā)動(dòng)宜陽大戰(zhàn)、通三川窺周室為開端,白起在其中嶄露頭角;而電視劇中將此部分并入了第二部,第三部直接從嬴稷親政之后開始。
  2. 關(guān)于甘茂的結(jié)局。在原著中,甘茂因?yàn)槭艿轿喝脚c宣太后的排擠,憤而離秦,投奔齊國(guó),并為齊國(guó)獻(xiàn)策,最終因?yàn)辇R王的昏庸而隱居山野;而電視劇中改為了嬴稷希望為甘茂求得一個(gè)善終,于是聽從了蘇秦的建議,暗中幫助甘茂在齊國(guó)謀得上卿之位。
  3. 關(guān)于白起的定位。在原著中,白起是本部的第一主角,白起所占篇幅超過任何一個(gè)其他角色,而本部的結(jié)束也幾乎是以白起身死為完結(jié)的。在迎立嬴稷的過程中,白起發(fā)揮了最主要的作用,同時(shí)也展現(xiàn)出白起行事風(fēng)格的鮮明特色;而在電視劇中,白起的功能大為弱化,大多由樗里疾和魏冉代替,當(dāng)然這可能跟主演白起的演員王學(xué)兵吸毒,補(bǔ)拍戲份太多而被迫刪掉一些戲有關(guān)。
  4. 對(duì)于蘇秦這個(gè)關(guān)鍵人物的處理。原著中,蘇秦原是第二部《國(guó)命縱橫》中的人物。原著按照《史記》和《戰(zhàn)國(guó)策》的記載,選用了更為傳統(tǒng)的“張?zhí)K縱橫”之說,使得張儀、蘇秦處于同一時(shí)代背景,一人合縱一人連橫,在為我們揭開縱橫大戲的同時(shí),也建立起張?zhí)K并雄的雙子結(jié)構(gòu)。;而在電視劇中,則采用了與原著完全不同的故事版本,遵從了于1973年在長(zhǎng)沙馬王堆三號(hào)漢墓出土的帛書書,—《戰(zhàn)國(guó)縱橫家書》(成書要早于《史記》和《戰(zhàn)國(guó)策》)的記載——蘇秦主要活動(dòng)時(shí)間在燕昭王時(shí)期,一生最重要的事跡,是以“間者”的身份,為燕滅齊。由此,蘇秦一改從前史書中“從約長(zhǎng)兼佩六國(guó)相印”的威風(fēng)凜凜,而變成一個(gè)城府極深、一心間齊、滅齊而憑一人攪亂戰(zhàn)國(guó)格局的“心機(jī)婊”。

不過,他在劇中關(guān)于“篤定”和“忠誠”的一段話很是經(jīng)典,連同劇中虛構(gòu)的一段戀情,體現(xiàn)了他“一生只奉一人主”和“此生若永如初見”的“從一而終”:

總的來說,電視劇中刪去了大量原著中的虛構(gòu)人物和虛構(gòu)情節(jié),增加了大量史料中的人物和情節(jié)。這種做法無疑對(duì)原著的故事性有所破壞,但也增加了故事情節(jié)的可靠性和真實(shí)性,最大限度的還原歷史。但孰是孰非,還是留給書友們/劇迷們?nèi)プ孕信袛喟伞?/p>

3.2 原著小說中的主要人物的社交網(wǎng)絡(luò)分析

根據(jù)上面的人名詞典,筆者構(gòu)建了原著小說中的主要人物社交網(wǎng)絡(luò)圖譜,并對(duì)其中較弱的關(guān)系及人物節(jié)點(diǎn)進(jìn)行了過濾。

上圖中,每個(gè)節(jié)點(diǎn)代表一個(gè)人物,線條代表人物之間的關(guān)系,相同顏色的人物節(jié)點(diǎn)代表他們之間有著較為頻繁的交往/聯(lián)系(或友或敵)。人物節(jié)點(diǎn)字體的大小所表征的是“Betweenness Centrality中介性核心性)”,該詞學(xué)術(shù)的說法是“兩個(gè)非鄰接的成員間的相互作用依賴于網(wǎng)絡(luò)中的其他成員,特別是位于兩成員之間路徑上的那些成員,他們對(duì)這兩個(gè)非鄰接成員的相互作用具有某種控制和制約作用“,說人話就是—字體大的人物具有更大的人際關(guān)系影響,能接觸和影響的人物較多,而在小說中出現(xiàn)次數(shù)多的未必就是這類人物,這里的存在感需要以人脈和影響力作為基石。

從上圖中可以看出,在位56年的秦昭襄王嬴稷無疑具有較強(qiáng)的人際網(wǎng)絡(luò)關(guān)系和影響力,更大的人際關(guān)系影響:廣納六國(guó)賢才,頻繁與六國(guó)君王過招,合作連橫,翻手為云,覆手為雨,后面迫使六國(guó)君主尊他為天子,人際影響力不可謂不廣。

其次是趙武靈王—趙雍,這位開創(chuàng)“胡服騎射”的君王,北擊匈奴和胡人,并吞中山國(guó),扶植了燕昭王和秦昭襄王2位君主也是開疆拓土,廣納賢才,在六國(guó)中擁有廣泛的人際網(wǎng)絡(luò)。

同樣的道理,“戰(zhàn)國(guó)四公子”中的平原君和春申君在六國(guó)中的聲望較高,人際資源豐沛。

當(dāng)然,對(duì)于統(tǒng)帥趙、楚、韓、魏、燕五國(guó)軍隊(duì)伐齊的樂毅自不必說。其他人的情況也類似,無一不具有較強(qiáng)的人際網(wǎng)絡(luò)關(guān)系。

3.3 豆瓣上關(guān)于該劇影評(píng)的文本聚類和典型意見抽取

豆瓣電影是中國(guó)最大與最權(quán)威的電影分享與評(píng)論社區(qū),收錄了百萬條影片和影人的資料,有2500多家電影院加盟,更匯聚了數(shù)千萬熱愛電影的人,因而這里關(guān)于影視劇的評(píng)論能具有一定的代表性和公信力。

如上圖所示,該劇在豆瓣上的評(píng)級(jí)較高,達(dá)到8.5分的分值,其中4星和5星評(píng)價(jià)站到整個(gè)評(píng)級(jí)里的84.6%,正面評(píng)價(jià)的比例相當(dāng)高。

筆者抓取了豆瓣上關(guān)于該劇的18068條評(píng)論信息,按贊同數(shù)的多寡保留了前3000條具有代表性的評(píng)論。抓取的數(shù)據(jù)格式如下圖所示:

經(jīng)簡(jiǎn)單處理,用AP算法進(jìn)行文本聚類得到如下圖所示的結(jié)果:

最后,AP算法自動(dòng)將3000條評(píng)論劃分成43個(gè)類別。

更進(jìn)一步,在文本聚類的基礎(chǔ)上進(jìn)行典型意見挖掘,得到如下結(jié)果:

選取其中最具代表性的意見(也就是包含文檔數(shù)最多的意見),即為:

由上表可知,“豆油”們對(duì)于“崛起”的評(píng)價(jià)主要集中在以下幾個(gè)方面:

  • 該劇尊重歷史,是一部很不錯(cuò)的歷史正?。?/li>
  • 該劇制作精良,還采用了比較真實(shí)的現(xiàn)場(chǎng)收音(現(xiàn)場(chǎng)錄音,有如下好處:最簡(jiǎn)化音畫匹配問題;鼓勵(lì)演員情感真實(shí)到位;保留各種聲音與環(huán)境音的真實(shí)互動(dòng)。),是一部良心劇;
  • 該劇演員的演技很贊,尤其是飾演秦宣太后/羋八子的寧靜。

3.4 《羋月傳》和《大秦帝國(guó)》中秦宣太后(羋月)的人物形象差異分析

因?yàn)檫@兩部劇中都涉及了中國(guó)歷史上一個(gè)有名的女人—秦宣太后,她是第一個(gè)自稱“太后”并開啟垂簾聽政的女當(dāng)權(quán)者,且因其傳奇而又復(fù)雜的情感糾葛而引人注(ba)目(gua)。(注:因正史中并未提及“羋月”,史稱“秦宣太后”居多,故筆者在下面僅取后者)

因此,筆者想結(jié)合豆瓣影評(píng)的相關(guān)評(píng)論數(shù)據(jù),來對(duì)《羋月傳》和《大秦帝國(guó)2、3》中秦宣太后的人物形象進(jìn)行分析。

為此,筆者爬取了豆瓣上關(guān)于《羋月傳》、《大秦帝國(guó)之縱橫》和《大秦帝國(guó)之崛起》中涉及秦宣太后及其主演(孫儷、寧靜)的若干評(píng)論作為分析對(duì)象。

以下是關(guān)于孫儷和寧靜所主演的秦宣太后的評(píng)論的文本分析,可以在這張直觀的可視化效果圖上看到“豆油”們對(duì)這兩位演員出演秦宣太后方方面面的評(píng)價(jià)。

上圖中,對(duì)于2類評(píng)價(jià)文本分別按照“高提及率(Frequent)”和“低提及率(Infrequent)”進(jìn)行了劃分。上圖若以橫縱軸的“Average”進(jìn)行劃分,則可以分為4個(gè)象限,右上角的為2類文本提及率皆高的詞匯,左下角為二者提及率皆低的詞匯。左上和右下僅是二者之一高提及率的詞匯。

另外,藍(lán)色點(diǎn)陣代表的詞匯屬于對(duì)“羋月傳-孫儷”的評(píng)價(jià),黃色點(diǎn)陣所代表的的詞匯屬于對(duì)“大秦帝國(guó)-寧靜”的評(píng)價(jià),右上角的象限二者的評(píng)語趨于重合。

可以看到,大家還是對(duì)兩位主演的演技很關(guān)注,其次是劇中演員的討論:跟孫儷相關(guān)的春申君黃歇及其扮演者黃軒、惠文后及其扮演者馬蘇;寧靜這邊則是秦惠文王及其扮演者富大龍。

點(diǎn)擊“點(diǎn)陣”中的“宮斗”一詞,可以看到“豆油”們對(duì)2部電視劇及其演員在劇情“宮斗”方面評(píng)價(jià)的異同:

從上圖可以看出,孫儷主演的《羋月傳》延續(xù)了《甄嬛傳》中的宮斗情節(jié),“豆油”們?cè)u(píng)價(jià)它“狗血”“狗尾續(xù)貂”、“臉譜化”等,負(fù)面評(píng)價(jià)比較多;而在寧靜所主演《大秦帝國(guó)2 3》評(píng)價(jià)中,“宮斗”的評(píng)價(jià)幾乎沒有,而且大家都會(huì)拿前者來做對(duì)照,“正劇”是大家對(duì)它的評(píng)價(jià)。

再將2類評(píng)論文本中的關(guān)鍵詞提取,做成主角所對(duì)應(yīng)的的詞云,顯示如下:

從上面的詞云可以看出,“豆油”對(duì)于寧靜所主要的秦宣太后的評(píng)價(jià)最具代表性的詞是“霸氣”、“野性”、“正劇”“不莊重”、“良心”、“氣場(chǎng)”、“育子成龍”和“不怒自威”等,評(píng)價(jià)多為正面,認(rèn)為寧靜主要的太后野性霸氣,且具有氣場(chǎng)、不怒自威。

從上面的詞云可以看出,“豆油”對(duì)于孫儷所主要的秦宣太后的評(píng)價(jià)最具代表性的詞是 “義渠君”、“浮夸”、“瞪眼”、“太假”、“春申君”、“綠茶婊”、“瑪麗蘇”、“矯情”和“宮斗”等,多為負(fù)面評(píng)價(jià),且對(duì)其演技的評(píng)價(jià)不是很好。

從歷史上的記載來看,楚人介于華夏與蠻夷之間,立于東南西北之中,他們的習(xí)俗既有蠻夷之異,亦有華夏之同,具有極強(qiáng)的兼容性。楚人確信自己是日神的遠(yuǎn)裔、火神的嫡嗣,由于日、火均為紅色,因而古時(shí)楚人富有激情和生命力,張揚(yáng)不羈。而寧靜飾演的秦宣太后很符合這個(gè)特征,她之前還主演過《紅河谷》中善良而又野性、任性的丹珠,《戰(zhàn)國(guó)英雄呂不韋》的秦王嬴政的母親趙姬,以及《孝莊秘史》中熱情奔放的的大玉兒(孝莊),這些角色其實(shí)與秦宣太后這個(gè)角色有很多相同之處。與之相比,出演宮廷內(nèi)斗局揚(yáng)名的孫儷在角色塑造方面過于臉譜化,把這個(gè)角色演出了甄嬛的感覺。

在“崛起”中,雖然寧靜所飾演的羋八子霸氣十足,將帝王家的無情、殘忍演繹得淋漓盡致,但她是一個(gè)顧全大局,一心為國(guó)的女當(dāng)權(quán)者,在電視劇片花末尾,更是展露出尋常母親的心疼與無奈:“為了愛他,我在他心里種下了一個(gè)冷血,可我不后悔?!?/p>

下面這句話是她教給秦昭襄王嬴稷的,被嬴稷銘記在心,并用刀將“王”字刻在手臂上:

3.5 原著小說中的若干關(guān)鍵詞的關(guān)聯(lián)詞分析

在最后,筆者把前面經(jīng)過預(yù)處理得到的小說文本進(jìn)行詞向量處理,將這些詞匯映射到向量空間,變成一個(gè)個(gè)詞向量(WordVector),以使這些詞匯在便于被計(jì)算機(jī)識(shí)別和分析的同時(shí),還具有語義上的相關(guān)性,而不僅僅是基于詞匯之間的共現(xiàn)關(guān)系。

筆者分別將劇中的“秦昭襄王”、“白起”和“宣太后”做了語義聯(lián)想,也就是于計(jì)算詞語之間的語義相似度,找出與之最為相似的TOP20詞匯。結(jié)果如下表所示:

從上表中可以看出,與秦昭襄王嬴稷最相關(guān)的詞是和他密切相關(guān)的人物,如宣太后、白起、王稽和魏冉等。而離自己最近的卻是“秦王”二字,但做秦王不易,連他自己也說:

這和毛主席的那句,“牢騷滿腹愁腸斷,風(fēng)物長(zhǎng)宜放眼量”有異曲同工之妙,不過這句話還有一層意思,作為深系國(guó)家命運(yùn)的君王,要想成為雄主,就要對(duì)自己狠一點(diǎn)!

對(duì)于戰(zhàn)神白起,與他密切相關(guān)的是他的妻子荊梅,電視劇中為趙女趙曼,其次就是秦昭襄王。

說起這對(duì)君臣CP,前后相處的景況令人唏噓。

下面一個(gè)是秦昭襄王繼位之初,求教白起讀書之道和兵法之道的場(chǎng)景:

這樣的場(chǎng)景可以看出君臣之間的融洽、和諧,從中,我們也可以了解到白起用兵的獨(dú)到之處—不墨守成規(guī),善于根據(jù)實(shí)際情況調(diào)整戰(zhàn)略部署。這也可以解釋為什么在后來的秦趙之戰(zhàn)中,白起能打破《孫子兵法》中”十則圍之,五則攻之”的兵法黃金原則,而采用50萬對(duì)50萬的“等量包圍”策略,從而贏得了決定秦國(guó)國(guó)運(yùn)的關(guān)鍵一戰(zhàn)。

而最后,君臣之間落了個(gè)不歡而散的下場(chǎng),曾經(jīng)情同兄弟的君臣關(guān)系跌落到了谷底,變得勢(shì)如水火……

這幾句從“成業(yè)(成就霸業(yè))”到“得賢(獲得賢才)”、“用賢(任用賢才)”以至于“任賢(信任人才)”,層層揭示,步步深入,最終得出成業(yè)的關(guān)鍵在于信任賢才的結(jié)論,也暗示了白起對(duì)于秦昭襄王對(duì)自己赤誠之心存疑的不滿。

而秦宣太后最為相近的幾個(gè)詞,有自己的兒子嬴稷、同母異父的弟弟兼重臣的魏冉、王族兼重臣的樗里疾、以及后來直接導(dǎo)致她失去權(quán)力的丞相范睢。

值得注意的是,這里和秦宣太后最為相關(guān)的也是“秦王”一詞,不過這里的秦王包括三代秦王—秦惠文王、秦武王和秦昭襄王。

最后,按照“或、與、非”的布爾邏輯,進(jìn)行“與‘秦國(guó)’-‘趙國(guó)’有關(guān),但和‘楚國(guó)’無關(guān)”的最相關(guān)的TOP20的詞匯的計(jì)算,得到如下圖所示的詞匯逆序排列。

從上面的TOP20相關(guān)詞可以看出,秦趙兩國(guó)之間還夾雜著魏國(guó)和韓國(guó),后二者與趙國(guó)合稱為“三晉”,緣起于戰(zhàn)國(guó)初期韓、趙、魏“三家分晉”。而二國(guó)傾舉國(guó)之力進(jìn)行正面交鋒的導(dǎo)火索正是“上黨之爭(zhēng)”,上黨的得失直接關(guān)乎趙國(guó)國(guó)都邯鄲的安危,因而趙國(guó)不得不接手這塊“燙手的山芋”。同時(shí),“上黨”也是秦國(guó)“東出”的戰(zhàn)略支撐點(diǎn),是必須攻克的“要塞”,如此才能逐鹿“中原”,合“六國(guó)”。

4 結(jié)語

看完這部歷史正劇,筆者自己的有這樣的感慨:

這部說“廟堂的事”的歷史正劇,其演員功力深厚,塑造的人物形象飽滿。宣太后,魏冉、蘇秦、田文、楚王,這些叱咤風(fēng)云的老江湖,聯(lián)手教會(huì)了秦昭王如何在險(xiǎn)惡中生存,在危機(jī)中壯大,而秦昭王具有強(qiáng)大的學(xué)習(xí)能力,迅速汲取著別人的經(jīng)驗(yàn)和教訓(xùn),逐步從一個(gè)政治手腕稚嫩、備受掣肘的君主成為一個(gè)雄霸天下、獨(dú)當(dāng)一面的雄主。在這個(gè)過程中,他學(xué)會(huì)了如何在不利的局面下運(yùn)用謀略,從而實(shí)現(xiàn)自己的目的,奠定了秦國(guó)崛起東出的霸業(yè)。

參考資料

1. 數(shù)據(jù)來源:新浪微輿情(熱度指數(shù)查詢、全網(wǎng)事件分析、微博事件分析和微博傳播分析)

2 .數(shù)據(jù)來源:頭條媒體實(shí)驗(yàn)室

3.“大秦帝國(guó)之崛起”百度百科官方詞條

4.《<大秦帝國(guó)之崛起>小說電視劇與真實(shí)歷史有何差異?》,觀察者網(wǎng)的博客

5 .文本數(shù)據(jù)來源:《大秦帝國(guó)(第三部)之金戈鐵馬》

6.《孫皓暉:要以歷史實(shí)踐為標(biāo)準(zhǔn)評(píng)價(jià)歷史人物》,光明網(wǎng)

7.評(píng)論數(shù)據(jù)來源:《大秦帝國(guó)之崛起 (2017)》影評(píng)

8.Malcolm Gladwell.《The Tipping Point》

#專欄作家#

作者:蘇格蘭折耳喵(微信公眾號(hào):運(yùn)營(yíng)喵是怎樣煉成的),人人都是產(chǎn)品經(jīng)理專欄作家。數(shù)據(jù)分析愛好者,擅長(zhǎng)數(shù)據(jù)分析和可視化表達(dá),喜歡研究各種跟數(shù)據(jù)相關(guān)的東東。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 大佬您好,請(qǐng)問可以分享一下第三部分小說文本挖掘的代碼嗎,僅用于學(xué)習(xí),謝謝??

    回復(fù)
  2. 厲害了

    來自浙江 回復(fù)
  3. 厲害了……

    來自廣東 回復(fù)
  4. 成功圈粉low君熱劇 ??

    來自福建 回復(fù)
  5. 屌屌的·····················

    來自廣東 回復(fù)
  6. 給你個(gè)大拇指。大學(xué)時(shí)候一口氣通讀了《大秦帝國(guó)》,不過電視劇一集都沒有看過

    來自廣東 回復(fù)
    1. 電視劇在某些方面更尊重歷史,但故事性有所削弱

      回復(fù)
  7. 我想知道用了哪些分析工具,效果都好贊。

    來自北京 回復(fù)
    1. 新浪微輿情(熱度指數(shù)查詢、全網(wǎng)事件分析、微博傳播分析),頭條實(shí)驗(yàn)室(熱度查詢、事件監(jiān)控),Python(關(guān)鍵詞提取、爬蟲、文本聚類、典型意見挖掘、自定義詞云、詞向量)

      來自上海 回復(fù)
  8. 高手

    來自廣東 回復(fù)
  9. 來自北京 回復(fù)
    1. 偶遇熟人啊

      來自內(nèi)蒙古 回復(fù)
  10. 高手

    來自上海 回復(fù)