以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

16 評論 69113 瀏覽 52 收藏 50 分鐘

本文作者將以《大秦帝國之崛起》作為分析對象,來詳細(xì)闡述在大數(shù)據(jù)時代數(shù)據(jù)分析會涉及到的全網(wǎng)輿情分析、微博傳播分析以及文本挖掘。

今年開年,拖延上映的《大秦帝國之崛起》(以下簡稱為“崛起”),終于在劇迷的千呼萬喚中播出。

這部根據(jù)孫皓暉同名小說改編的電視劇是“大秦帝國”系列的第三部,首部《大秦帝國之裂變》,第二部《大秦帝國之縱橫》分別于2009年、2013年播出,均獲得不錯的口碑,第三部《大秦帝國之崛起》因為上面的原因而補(bǔ)拍,直到今年年初才在央視開播。

本文將以該劇作為分析對象,來詳細(xì)闡述在大數(shù)據(jù)時代數(shù)據(jù)分析會涉及到的三個“子課題”:

  • 全網(wǎng)的輿情分析:基于全網(wǎng)媒體或網(wǎng)民關(guān)于該劇的探討,進(jìn)行“Social Listening(社會化聆聽)”,了解該劇整體口碑概況
  • 微博傳播分析:基于新浪微博某條對于該劇具有重大影響力的微博的傳播情況,了解該條微博的傳播規(guī)律,互動粉絲的畫像,以及水軍的辨識
  • 文本挖掘:通過對該劇相關(guān)非結(jié)構(gòu)化文本數(shù)據(jù)的分析,了解其獲得觀眾較高認(rèn)可的原因

在接下來的分析中,筆者將結(jié)合分析工具(新浪微輿情、頭條媒體實驗室、Python、Gephi等)、分析思路(分析角度和分析流程)、業(yè)務(wù)知識(對該劇的了解和原著小說的認(rèn)知),來談?wù)勔粋€完整的數(shù)據(jù)分析case如何完成,上面所涉及的3個子課題是本文分析的重點。下圖是本文的主要內(nèi)容和文章結(jié)構(gòu):

1“崛起”的全網(wǎng)輿情分析

1.1 全網(wǎng)關(guān)注情況

(1)“崛起”的全網(wǎng)關(guān)注度走勢

因為該劇播出的時間段是2017-2-9~2017-3-6,故筆者選取了在該劇播出前后略有延展的時間區(qū)間,以便觀察這段時間內(nèi)關(guān)于該劇的全網(wǎng)信息量走勢。

大秦帝國之崛起全網(wǎng)關(guān)注度走勢圖(2-1~3-13)

從全網(wǎng)總體的關(guān)注度來看,在電視劇播出前的關(guān)注量較少,而在電視劇播出期間的關(guān)注度(有關(guān)該劇的網(wǎng)絡(luò)信息量)陡然上升,在播出的第一天(2017-2-9)關(guān)注度就出現(xiàn)了明顯在上升。在該劇在播出結(jié)束后(2017-3-6),信息量逐漸減少,呈下降趨勢。

(2)“崛起”的全網(wǎng)關(guān)注度來源

從各信息發(fā)布渠道的表現(xiàn)來看,該劇在微博(新浪微博和騰訊微博)上的信息量占據(jù)主導(dǎo)地位,“二次崛起”后的微博仍是娛樂影視的主陣地,是粉絲與主創(chuàng)團(tuán)隊進(jìn)行互動的首選。下圖是“崛起”的全網(wǎng)信息量來源構(gòu)成。

除去微博的信息之后,則可以看到除微博(新浪微博和騰訊微博)以外哪些信息渠道關(guān)于該劇的討論量較多。

由此可以看出,新浪博客、百度貼吧這樣的泛娛樂化社區(qū)關(guān)于該劇的討論也頗多,前者濫觴于明星入駐,是全國最主流,人氣頗高的博客頻道之一;而百度貼吧是全球最大的中文社區(qū),是“粉絲文化”的催化劑。百度貼吧的迅速走紅,是與“粉絲”及“粉絲文化”的流行緊密相關(guān)的,而在“粉絲文化”的發(fā)展過程中,百度貼吧也起到了重要作用。

1.2 全網(wǎng)關(guān)于“崛起”的關(guān)注點

(1)“崛起”的全網(wǎng)信息形成的關(guān)鍵詞云

以下是全網(wǎng)關(guān)于“崛起”的文本信息的關(guān)鍵詞提取,總計有60個,這些關(guān)鍵詞來自于媒體報道,抑或用戶UGC評論,從中我們可以發(fā)現(xiàn)網(wǎng)路上關(guān)于該劇的討論集中在哪些關(guān)鍵點上。

從上圖中可以看出,除了本劇的片名—“大秦帝國”以外,還有一些比較反映該劇特征的詞匯,根據(jù)筆者對該劇的了解,特挑出其中主要的兩類詞匯:

  • 劇集相關(guān):“收視”和“收視率”(在無大規(guī)模宣傳的情況下,收視率一路走高)、“拍戲”、“張博”(飾演秦昭襄王嬴稷的演員)、“導(dǎo)演”、“劇本”、“創(chuàng)作”、“花絮”、“創(chuàng)作者”
  • 該劇的意義:“文化”、“歷史”、“陜西”、“國家”、“文明”、“秦國”、“正劇”、“大秦”,(這類詞匯能在一定程度上代表該劇想要表達(dá)的價值觀—居今之世,志古之道,所以自鏡,拒絕戲說,尊史重實)

(2) 與“崛起”相關(guān)的關(guān)聯(lián)詞分析

全網(wǎng)事件的熱度信息關(guān)聯(lián)詞分析,它是通過系統(tǒng)自動運(yùn)算找出事件核心詞、并計算出與核心詞同時出現(xiàn)關(guān)聯(lián)度最高的高頻詞,也就是與核心詞共現(xiàn)頻率最高的詞匯(關(guān)于“共現(xiàn)”的原理介紹,請看《如何用數(shù)據(jù)分析,搞定新媒體運(yùn)營的定位和內(nèi)容初始化?》的第三部分)。

假若讀者看過該劇,從上面的關(guān)聯(lián)詞即可看出,該劇的“正劇”屬性確鑿無疑,是一部獨具匠心的佳??!

(3)與“崛起”相關(guān)的熱門文章

這里的關(guān)于“熱門”文章的定義主要是通過三個維度綜合得出,即閱讀量、轉(zhuǎn)發(fā)量和評論量的綜合評價。

上面有7篇個熱門文章,它們在全網(wǎng)信息中的綜合得分(閱讀量、轉(zhuǎn)發(fā)量和評論量)最高。從這幾篇文章的標(biāo)題可以看出,它們主要以預(yù)告即將播出的劇集的劇情為主,關(guān)于劇中主要人物的出場及情節(jié)預(yù)告居多,由此可見該劇的關(guān)注度較高。

1.3 關(guān)注網(wǎng)民的人群畫像

以下數(shù)據(jù)來源于選自“頭條媒體實驗室”,基于今日頭條7億累計激活用戶,7800萬日活用戶(截至2016年12月底)的海量行為數(shù)據(jù)及文章數(shù)據(jù)。鑒于今日頭條龐大的用戶數(shù)量,對其相關(guān)人群進(jìn)行分析可以起到“管中窺豹”、“一葉知秋”的效用。如果該用戶點擊并閱讀跟“大秦帝國之崛起”影視相關(guān)的文章,則判定該用戶對該劇感興趣。

(1) 關(guān)注網(wǎng)民的性別滲透率及年齡滲透率

此處,用滲透率(度)來表示用戶對特定事件關(guān)注度的比例,而非絕對值。有可能出現(xiàn)的情況是:一個人口稀少的地區(qū)有一百個人的人關(guān)注了某事件,相比一個人口大省有一萬人關(guān)注該話題,計算得到的滲透率(度)可能更高。

以下是這兩類滲透率的計算公式:

  • 性別滲透率:某性別用戶對關(guān)鍵詞的關(guān)注度/全網(wǎng)該性別用戶總關(guān)注度
  • 年齡滲透率:某年齡段用戶關(guān)鍵詞的關(guān)注度/全網(wǎng)該年齡段用戶總關(guān)注度

從上圖可以看出,“崛起”的男觀眾要多于女觀眾,當(dāng)然這也在預(yù)料之中。年齡方面,青年群體(18-30)對該劇的熱衷程度要比想象中的高,說明在當(dāng)今這樣一個盛行“宮斗撕逼瑪麗蘇”、“手撕鬼子褲腰藏雷”和“玄幻科幻架空歷史”的戲說歷史、全民娛樂時代,大家還是蠻希望有良心、有匠心、不浮躁的優(yōu)秀劇集出現(xiàn),并不是“劣幣驅(qū)逐良幣”或者是一味的迎合大眾口味的“糙劇”。

(2)關(guān)注網(wǎng)民的地域分布

意料之外,情理之中,這部主創(chuàng)團(tuán)隊(原著小說作者、導(dǎo)演、制片人)全部是“秦人”(陜西人)的影視劇,陜西地區(qū)的受眾關(guān)注度(閱讀量、轉(zhuǎn)發(fā)量、評論量等)最高。

“大秦帝國”系列電視劇,展現(xiàn)了一幅波瀾壯闊的圖景:

在一個熱血的時代,一個積貧積弱的偏蠻小國由幾代秦國人奮發(fā)圖強(qiáng),秉承著“赳赳老秦,共赴國難,血流不干,誓不休戰(zhàn)”的大無畏精神,歷經(jīng)磨難終于實現(xiàn)大國夢。

出于對祖先的崇敬和身為秦人后裔的自豪,陜西地區(qū)的網(wǎng)民對于該劇的關(guān)注度高不足為奇。

(3) 關(guān)注網(wǎng)民的興趣圖譜

該部分度量了關(guān)注“崛起”的受眾的整體興趣情況,同樣是根據(jù)他們閱讀文章的類別(如“科技”、“歷史”等)來進(jìn)行判斷的,以此為指標(biāo)對各興趣類別在關(guān)注該話題的人群中從高到低進(jìn)行排序。

“用戶興趣”的計算公式:

某興趣類別的用戶對關(guān)鍵詞的關(guān)注度/某興趣類別用戶總關(guān)注度

在這里,興趣圖譜分為3層,越往下分則越細(xì)致。結(jié)合上面的年齡、性別和地域因素,從這些興趣圖譜中,我們能得到關(guān)于受眾人群更為深層的洞察。

通過上面對受眾興趣圖譜層層遞進(jìn)的“鉆取”,我們可以看到,他們主要的興趣有“國際足球”、“中國古代史”、“電影”、“中國足球”、“NBA”、“購房”和“法律”。結(jié)合先前的2個人群畫像維度,可以判斷出喜愛《大秦帝國之崛起》的人群是一些酷愛歷史(尤其是中國古代史)、和運(yùn)動,且具有一定經(jīng)濟(jì)實力的中青年群體,他們具有較高的文化素養(yǎng)。

2“崛起”的熱門微博傳播分析

在前面的全網(wǎng)輿情分析中筆者有提到,該?。ㄆ鋵嵈蟛糠钟耙晞〗允侨绱耍┰谖⒉┥系穆暳繕O高,所以筆者在這一部分著重描述下它在微博上的聲量表現(xiàn)。

其實,造成微博上聲量較大的原因,絕大部分是因為用戶參與轉(zhuǎn)發(fā)或是評論了某條微博,每一條轉(zhuǎn)發(fā)和評論都被視為一個用戶UGC。而微博文本每天13萬的日發(fā)博量和短視頻每天的32萬日發(fā)布數(shù)量,這兩方面每天形成的內(nèi)容體量是相當(dāng)龐大的。(新浪微博2016年年終數(shù)據(jù))

又因為,微博上“注意力資源”分配極不均勻,少數(shù)大V博主擁有龐大的粉絲資源,他們發(fā)布的內(nèi)容往往能引起微博上廣大民眾的討論,能造成極大的影響力。

鑒于此,筆者選擇了微博上一個關(guān)于影視娛樂的自媒體大v—“l(fā)ow君熱劇”,該賬號曾傳播過一條跟“崛起”相關(guān)的微博,用戶互動較為活躍,權(quán)當(dāng)“解剖麻雀”之用。

筆者選取了一條帶視頻的微博,下面的播放量、轉(zhuǎn)發(fā)量、評論量和點贊量都較為可觀??梢宰鳛槲⒉﹤鞑シ治龅囊粋€例子。

以下關(guān)于該條微博的傳播分析,數(shù)據(jù)來源及相關(guān)可視化呈現(xiàn)皆來自于新浪微輿情的微博傳播分析(微分析)功能模塊。

2.1?傳播概況

截至分析時間03-18 11:50,@low君熱劇?的微博共收獲轉(zhuǎn)發(fā)數(shù)13,393次(其中有效轉(zhuǎn)發(fā)10,576次)、 評論數(shù)2,209條,點贊數(shù)29,646個。

此外,該條微博的覆蓋人次為20,260,770,包括原創(chuàng)者(也就是“l(fā)ow君熱劇”)和轉(zhuǎn)發(fā)者的粉絲數(shù)的疊加,當(dāng)然也免不了重復(fù)計算,但整體的傳播效果是驚人的。注意,這是沒有排除水軍的數(shù)據(jù)。

內(nèi)容敏感度為0.27%,也就是說,關(guān)于該條微博的用戶評論中僅有0.27%的評論是呈負(fù)面的,這個量很小。

值得注意的是,原創(chuàng)者“l(fā)ow君熱劇”自身是此條微博的關(guān)鍵傳播用戶,這個看起來有點費解,筆者會在下面有詳述。

2.2?轉(zhuǎn)發(fā)評論趨勢

一條微博的傳播是有生命周期的。能夠十分清晰的觀察到該微博轉(zhuǎn)發(fā)、評論的發(fā)展趨勢,微博的互動及散播活躍與否,以及處于生命周期的哪個階段(引發(fā)期、醞釀期、發(fā)生期、發(fā)展期、高潮期、處理期、平息期和反饋期),對于及時、準(zhǔn)確研判事件及輿情走向起到至關(guān)重要的作用。

從上圖可以看出,該微博于03-17 12:05發(fā)布后,于03-17 12:30、03-17 23:30達(dá)到轉(zhuǎn)發(fā)、評論高峰,轉(zhuǎn)發(fā)峰值516條、評論峰值34條,此后微博傳播速度逐漸降低。

同時,意見領(lǐng)袖也是在該條微博的傳播高峰期進(jìn)行活躍的,圖中深黃色的圓圈即代表它們引起的轉(zhuǎn)發(fā)量。

2.3?傳播層級

轉(zhuǎn)發(fā)層級可以看出某個微博傳播滲透力的強(qiáng)弱,層級越多,代表話題的滲透性和傳播性越強(qiáng),微博粉絲的參與度也就越高。

本條微博的傳播層級為5級,在傳播深度上一般,滲透力不足,說明本話題以及該劇屬于小眾圈子。

值得注意的是,在剔除掉水軍及僵尸粉之類的用戶后,該條微博的覆蓋人次變更為18,070,952,跟初始覆蓋人次相差了100多萬的人次數(shù)。

在這里,原創(chuàng)者“l(fā)ow君熱劇”有重復(fù)出現(xiàn)多次,這是為什么呢?請接著往下看。

2.4?傳播路徑

微博傳播路徑分析是微博傳播分析中的重中之重,分析微博傳播路徑圖能發(fā)現(xiàn)其中的關(guān)鍵傳播樞紐節(jié)點(意見領(lǐng)袖)和識別傳播質(zhì)量。

下圖是傳播路徑圖中常見的三種傳播節(jié)點類型。

聯(lián)系Malcolm Gladwell在《引爆點”(The Tipping Point)》中提出的觀點,原創(chuàng)節(jié)點、傳播節(jié)點和長尾節(jié)點非常接近其表述的、在某類流行事件中的三種主要角色:

  • 聯(lián)系員:就是那種“認(rèn)識了很多人的人”,這類人把朋友當(dāng)作郵票一樣地搜集,隨時與人保持聯(lián)系,這個角色可以把信息快速的散布出去。
  • 內(nèi)行:就是那種“什么都懂的人”,他對某一種知識可以說是“達(dá)人”,不厭其煩地把相關(guān)的知識與朋友分享,但是卻沒有很好的說服力。這個角色對某件事情的狂熱,使他所發(fā)掘出來的事情成為有價值的。
  • 推銷員:就是那種“什么人都能夠說服的人”這種人沒有很深的知識,但是有特殊的能力讓見到面的人在短暫的時間就交付信任。這個角色能夠把內(nèi)行發(fā)現(xiàn)的東西與人們以簡易的語言溝通。

稍有差異的是,處在長尾節(jié)點位置的粉絲,多半是被動的接收者,傳播層級到他們這里基本戛然而止,但如果長期接收某一類事物信息,他們也會變成該事物的忠實擁簇,會轉(zhuǎn)變?yōu)槁?lián)系人或者內(nèi)行。

從微博傳播分析系統(tǒng)上獲取傳播節(jié)點相關(guān)的數(shù)據(jù)之后,筆者利用復(fù)雜網(wǎng)絡(luò)分析工具Gephi,基于Fruchterman Reingold的力導(dǎo)向算法和Modularity Class的譜聚類算法,得到了如下能反映該條微博傳播路徑及傳播社群關(guān)系的微博傳播路徑圖。(Gephi詳細(xì)使用方法請參看《萬字干貨|10款數(shù)據(jù)分析“工具”,助你成為新媒體運(yùn)營領(lǐng)域的“增長黑客”》)

從上圖可以看出,“l(fā)ow君熱劇”在該條微博的傳播過程中出現(xiàn)了很多次,而且其中呈明黃色的樞紐傳播節(jié)點也是本尊。那究竟它們是同一個賬號轉(zhuǎn)發(fā)了很多次呢,還是同名但不同賬號各自發(fā)布了一條信息呢?我們接著往下看。

調(diào)出關(guān)于傳播節(jié)點的基礎(chǔ)數(shù)據(jù),得到下面關(guān)于本條微博TOP轉(zhuǎn)發(fā)20的列表。

從上表可以看出,在轉(zhuǎn)發(fā)數(shù)TOP20中,“l(fā)ow君熱劇”包攬了狀元、榜眼、探花和傳臚這前四名。第一列的的“發(fā)布微博ID”代表某個賬號將本條微博重新轉(zhuǎn)發(fā),形成一條新的微博(ID)。因而,“l(fā)ow君熱劇”在本條微博的傳播中,總共發(fā)布了4次,將“聯(lián)系人”“內(nèi)行”和“推銷員”的角色都過了一遍,而且二次轉(zhuǎn)發(fā)效果上佳,不得不說,只有這樣粉絲過百萬且活躍度極高的微博大v才能這么玩,而且玩的不亦樂乎!

2.5?互動粉絲畫像分析

筆者把傳播者分為兩類,即轉(zhuǎn)發(fā)者和評論者,將二者分別進(jìn)行分析。

一般來說,如果沒有水軍操作的話,這兩類群體的屬性應(yīng)該基本一致。評論者的互動意愿更強(qiáng),且機(jī)器操作的難度較大。

(1)轉(zhuǎn)發(fā)者和評論者的性別分析

從上圖可以看出,轉(zhuǎn)發(fā)者和評論者的性別占比趨近一致,都是女性壓倒性的超過男性。貌似和該劇面向的群體不太一樣,不過,我們需要知道的是,“l(fā)ow君熱劇”平時發(fā)布的關(guān)于影視劇的微博之類繁復(fù),像《大秦帝國之崛起》這種風(fēng)格的影視劇不是主流,平時它的畫風(fēng)是這樣的:

這樣就不難理解,為何歷史正劇互動的女粉絲較多,因為這個大v平時吸聚的粉絲多半是女性群體~

(2)轉(zhuǎn)發(fā)者和評論者的地域分布

從上圖看來,轉(zhuǎn)發(fā)者和評論者的地域分布差異較大,轉(zhuǎn)發(fā)者集中在東北黑龍江,而評論者主要集中在南方。聯(lián)系前面的傳播路徑分析,該條微博人為干預(yù)較為突出。

(3)轉(zhuǎn)發(fā)者和評論者的興趣標(biāo)簽

從上圖可以看出,該條轉(zhuǎn)發(fā)群體和評論群體的興趣圖譜幾近一致—都是熱愛生活、喜好休閑娛樂的樂活一族。

綜合上述關(guān)于微博傳播分析的5個維度,本條微博的傳播有輕微人為干預(yù),不是大面積的商業(yè)推動行為,微博傳播情況正常。

3 原著相關(guān)的文本分析

在本部分,筆者選取了《大秦帝國之崛起》相關(guān)的原著小說進(jìn)行分析,即《大秦帝國之金戈鐵馬》。

與影視劇不同的是,原著小說交代了秦昭襄王嬴稷上位前的一段經(jīng)過,比如秦武王討伐東周并舉鼎而亡,以及秦宣太后和嬴稷質(zhì)于燕,等等。

以下筆者就從文本挖掘的角度來分析一下原著小說、觀眾影評等方面的文本分析。

不過,在進(jìn)行正式的分本分析前,需要對原著小說文本進(jìn)行預(yù)處理,也就是:

  • 詞匯替換:同一個人名的不同稱謂
  • 中文分詞:一個漢字序列切分成一個一個單獨的詞
  • 停用詞過濾:過濾掉2類“無意義”的詞匯:一類是人類語言中包含的功能詞,這些功能詞極其普遍,與其他詞相比,功能詞沒有什么實際含義,比如’你’、’我’、’的’、’或者’、’而是’等;另一類詞包括詞匯詞,比如’想要’、‘打開’等,這些詞應(yīng)用十分廣泛,對于揭示特定文本的含義的重要性意義不大

此外,還需要統(tǒng)一原著中的人名稱謂,將在文本中具有多個稱呼的人物統(tǒng)一為一個名稱,便于精準(zhǔn)的統(tǒng)計人物出現(xiàn)的頻次及其相關(guān)關(guān)系。

人物名稱替換表見下表。

預(yù)處理效果如下圖所示:

3.1 原著小說的關(guān)鍵詞提取

筆者沒采取一般文本分析時所采用的詞頻統(tǒng)計,因為詞頻統(tǒng)計的邏輯是:一個詞在文章中出現(xiàn)的次數(shù)越多,則它就越重要。但筆者采用的是TF-IDF(term frequency–inverse document frequency)關(guān)鍵詞統(tǒng)計方法:它用以評估一字/詞對于一個文件集或一個語料庫中的其中一份文件的重要程度,字/詞的重要性會隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。

由此可見,在提取某段文本的關(guān)鍵信息時,關(guān)鍵詞提取較詞頻統(tǒng)計更為可取,能提取出對某段文本具有重要意義的關(guān)鍵詞。

以下是該原著小說的關(guān)鍵詞TOP300,筆者用電視劇的海報作為詞云輪廓,大家可以在詞云中看到關(guān)鍵的信息,和電視劇“崛起”做一下對照。

在關(guān)鍵詞TOP100中,基本上都是跟秦國/秦軍相關(guān)的詞,秦國君臣秦昭襄王嬴稷、秦武王、范睢、白起、魏冉和甘茂等;秦國的死對頭—齊國、趙國和楚國等;一些重要的他國人物,魯仲連、藺相如、廉頗、春申君和趙奢等…

等等,“魯仲連”什么鬼?電視劇里壓根沒瞧見哪!

這就涉及《大秦帝國之崛起》的原著小說和電視劇本身的差異了,它們的差別是顯而易見,甚至在第二部和第三部被“摒棄”出制作團(tuán)隊的原著小說作者孫皓暉也說,“電視劇相較原著改編幅度太大,完全可以另外取個名字” 。

綜合來看,筆者認(rèn)為,電視劇和原著小說不同之處主要集中在如下方面:

  1. 內(nèi)容起始不同。原著中第三部以秦武王即位后發(fā)動宜陽大戰(zhàn)、通三川窺周室為開端,白起在其中嶄露頭角;而電視劇中將此部分并入了第二部,第三部直接從嬴稷親政之后開始。
  2. 關(guān)于甘茂的結(jié)局。在原著中,甘茂因為受到魏冉與宣太后的排擠,憤而離秦,投奔齊國,并為齊國獻(xiàn)策,最終因為齊王的昏庸而隱居山野;而電視劇中改為了嬴稷希望為甘茂求得一個善終,于是聽從了蘇秦的建議,暗中幫助甘茂在齊國謀得上卿之位。
  3. 關(guān)于白起的定位。在原著中,白起是本部的第一主角,白起所占篇幅超過任何一個其他角色,而本部的結(jié)束也幾乎是以白起身死為完結(jié)的。在迎立嬴稷的過程中,白起發(fā)揮了最主要的作用,同時也展現(xiàn)出白起行事風(fēng)格的鮮明特色;而在電視劇中,白起的功能大為弱化,大多由樗里疾和魏冉代替,當(dāng)然這可能跟主演白起的演員王學(xué)兵吸毒,補(bǔ)拍戲份太多而被迫刪掉一些戲有關(guān)。
  4. 對于蘇秦這個關(guān)鍵人物的處理。原著中,蘇秦原是第二部《國命縱橫》中的人物。原著按照《史記》和《戰(zhàn)國策》的記載,選用了更為傳統(tǒng)的“張?zhí)K縱橫”之說,使得張儀、蘇秦處于同一時代背景,一人合縱一人連橫,在為我們揭開縱橫大戲的同時,也建立起張?zhí)K并雄的雙子結(jié)構(gòu)。;而在電視劇中,則采用了與原著完全不同的故事版本,遵從了于1973年在長沙馬王堆三號漢墓出土的帛書書,—《戰(zhàn)國縱橫家書》(成書要早于《史記》和《戰(zhàn)國策》)的記載——蘇秦主要活動時間在燕昭王時期,一生最重要的事跡,是以“間者”的身份,為燕滅齊。由此,蘇秦一改從前史書中“從約長兼佩六國相印”的威風(fēng)凜凜,而變成一個城府極深、一心間齊、滅齊而憑一人攪亂戰(zhàn)國格局的“心機(jī)婊”。

不過,他在劇中關(guān)于“篤定”和“忠誠”的一段話很是經(jīng)典,連同劇中虛構(gòu)的一段戀情,體現(xiàn)了他“一生只奉一人主”和“此生若永如初見”的“從一而終”:

總的來說,電視劇中刪去了大量原著中的虛構(gòu)人物和虛構(gòu)情節(jié),增加了大量史料中的人物和情節(jié)。這種做法無疑對原著的故事性有所破壞,但也增加了故事情節(jié)的可靠性和真實性,最大限度的還原歷史。但孰是孰非,還是留給書友們/劇迷們?nèi)プ孕信袛喟伞?/p>

3.2 原著小說中的主要人物的社交網(wǎng)絡(luò)分析

根據(jù)上面的人名詞典,筆者構(gòu)建了原著小說中的主要人物社交網(wǎng)絡(luò)圖譜,并對其中較弱的關(guān)系及人物節(jié)點進(jìn)行了過濾。

上圖中,每個節(jié)點代表一個人物,線條代表人物之間的關(guān)系,相同顏色的人物節(jié)點代表他們之間有著較為頻繁的交往/聯(lián)系(或友或敵)。人物節(jié)點字體的大小所表征的是“Betweenness Centrality中介性核心性)”,該詞學(xué)術(shù)的說法是“兩個非鄰接的成員間的相互作用依賴于網(wǎng)絡(luò)中的其他成員,特別是位于兩成員之間路徑上的那些成員,他們對這兩個非鄰接成員的相互作用具有某種控制和制約作用“,說人話就是—字體大的人物具有更大的人際關(guān)系影響,能接觸和影響的人物較多,而在小說中出現(xiàn)次數(shù)多的未必就是這類人物,這里的存在感需要以人脈和影響力作為基石。

從上圖中可以看出,在位56年的秦昭襄王嬴稷無疑具有較強(qiáng)的人際網(wǎng)絡(luò)關(guān)系和影響力,更大的人際關(guān)系影響:廣納六國賢才,頻繁與六國君王過招,合作連橫,翻手為云,覆手為雨,后面迫使六國君主尊他為天子,人際影響力不可謂不廣。

其次是趙武靈王—趙雍,這位開創(chuàng)“胡服騎射”的君王,北擊匈奴和胡人,并吞中山國,扶植了燕昭王和秦昭襄王2位君主也是開疆拓土,廣納賢才,在六國中擁有廣泛的人際網(wǎng)絡(luò)。

同樣的道理,“戰(zhàn)國四公子”中的平原君和春申君在六國中的聲望較高,人際資源豐沛。

當(dāng)然,對于統(tǒng)帥趙、楚、韓、魏、燕五國軍隊伐齊的樂毅自不必說。其他人的情況也類似,無一不具有較強(qiáng)的人際網(wǎng)絡(luò)關(guān)系。

3.3 豆瓣上關(guān)于該劇影評的文本聚類和典型意見抽取

豆瓣電影是中國最大與最權(quán)威的電影分享與評論社區(qū),收錄了百萬條影片和影人的資料,有2500多家電影院加盟,更匯聚了數(shù)千萬熱愛電影的人,因而這里關(guān)于影視劇的評論能具有一定的代表性和公信力。

如上圖所示,該劇在豆瓣上的評級較高,達(dá)到8.5分的分值,其中4星和5星評價站到整個評級里的84.6%,正面評價的比例相當(dāng)高。

筆者抓取了豆瓣上關(guān)于該劇的18068條評論信息,按贊同數(shù)的多寡保留了前3000條具有代表性的評論。抓取的數(shù)據(jù)格式如下圖所示:

經(jīng)簡單處理,用AP算法進(jìn)行文本聚類得到如下圖所示的結(jié)果:

最后,AP算法自動將3000條評論劃分成43個類別。

更進(jìn)一步,在文本聚類的基礎(chǔ)上進(jìn)行典型意見挖掘,得到如下結(jié)果:

選取其中最具代表性的意見(也就是包含文檔數(shù)最多的意見),即為:

由上表可知,“豆油”們對于“崛起”的評價主要集中在以下幾個方面:

  • 該劇尊重歷史,是一部很不錯的歷史正??;
  • 該劇制作精良,還采用了比較真實的現(xiàn)場收音(現(xiàn)場錄音,有如下好處:最簡化音畫匹配問題;鼓勵演員情感真實到位;保留各種聲音與環(huán)境音的真實互動。),是一部良心??;
  • 該劇演員的演技很贊,尤其是飾演秦宣太后/羋八子的寧靜。

3.4 《羋月傳》和《大秦帝國》中秦宣太后(羋月)的人物形象差異分析

因為這兩部劇中都涉及了中國歷史上一個有名的女人—秦宣太后,她是第一個自稱“太后”并開啟垂簾聽政的女當(dāng)權(quán)者,且因其傳奇而又復(fù)雜的情感糾葛而引人注(ba)目(gua)。(注:因正史中并未提及“羋月”,史稱“秦宣太后”居多,故筆者在下面僅取后者)

因此,筆者想結(jié)合豆瓣影評的相關(guān)評論數(shù)據(jù),來對《羋月傳》和《大秦帝國2、3》中秦宣太后的人物形象進(jìn)行分析。

為此,筆者爬取了豆瓣上關(guān)于《羋月傳》、《大秦帝國之縱橫》和《大秦帝國之崛起》中涉及秦宣太后及其主演(孫儷、寧靜)的若干評論作為分析對象。

以下是關(guān)于孫儷和寧靜所主演的秦宣太后的評論的文本分析,可以在這張直觀的可視化效果圖上看到“豆油”們對這兩位演員出演秦宣太后方方面面的評價。

上圖中,對于2類評價文本分別按照“高提及率(Frequent)”和“低提及率(Infrequent)”進(jìn)行了劃分。上圖若以橫縱軸的“Average”進(jìn)行劃分,則可以分為4個象限,右上角的為2類文本提及率皆高的詞匯,左下角為二者提及率皆低的詞匯。左上和右下僅是二者之一高提及率的詞匯。

另外,藍(lán)色點陣代表的詞匯屬于對“羋月傳-孫儷”的評價,黃色點陣所代表的的詞匯屬于對“大秦帝國-寧靜”的評價,右上角的象限二者的評語趨于重合。

可以看到,大家還是對兩位主演的演技很關(guān)注,其次是劇中演員的討論:跟孫儷相關(guān)的春申君黃歇及其扮演者黃軒、惠文后及其扮演者馬蘇;寧靜這邊則是秦惠文王及其扮演者富大龍。

點擊“點陣”中的“宮斗”一詞,可以看到“豆油”們對2部電視劇及其演員在劇情“宮斗”方面評價的異同:

從上圖可以看出,孫儷主演的《羋月傳》延續(xù)了《甄嬛傳》中的宮斗情節(jié),“豆油”們評價它“狗血”“狗尾續(xù)貂”、“臉譜化”等,負(fù)面評價比較多;而在寧靜所主演《大秦帝國2 3》評價中,“宮斗”的評價幾乎沒有,而且大家都會拿前者來做對照,“正劇”是大家對它的評價。

再將2類評論文本中的關(guān)鍵詞提取,做成主角所對應(yīng)的的詞云,顯示如下:

從上面的詞云可以看出,“豆油”對于寧靜所主要的秦宣太后的評價最具代表性的詞是“霸氣”、“野性”、“正劇”“不莊重”、“良心”、“氣場”、“育子成龍”和“不怒自威”等,評價多為正面,認(rèn)為寧靜主要的太后野性霸氣,且具有氣場、不怒自威。

從上面的詞云可以看出,“豆油”對于孫儷所主要的秦宣太后的評價最具代表性的詞是 “義渠君”、“浮夸”、“瞪眼”、“太假”、“春申君”、“綠茶婊”、“瑪麗蘇”、“矯情”和“宮斗”等,多為負(fù)面評價,且對其演技的評價不是很好。

從歷史上的記載來看,楚人介于華夏與蠻夷之間,立于東南西北之中,他們的習(xí)俗既有蠻夷之異,亦有華夏之同,具有極強(qiáng)的兼容性。楚人確信自己是日神的遠(yuǎn)裔、火神的嫡嗣,由于日、火均為紅色,因而古時楚人富有激情和生命力,張揚(yáng)不羈。而寧靜飾演的秦宣太后很符合這個特征,她之前還主演過《紅河谷》中善良而又野性、任性的丹珠,《戰(zhàn)國英雄呂不韋》的秦王嬴政的母親趙姬,以及《孝莊秘史》中熱情奔放的的大玉兒(孝莊),這些角色其實與秦宣太后這個角色有很多相同之處。與之相比,出演宮廷內(nèi)斗局揚(yáng)名的孫儷在角色塑造方面過于臉譜化,把這個角色演出了甄嬛的感覺。

在“崛起”中,雖然寧靜所飾演的羋八子霸氣十足,將帝王家的無情、殘忍演繹得淋漓盡致,但她是一個顧全大局,一心為國的女當(dāng)權(quán)者,在電視劇片花末尾,更是展露出尋常母親的心疼與無奈:“為了愛他,我在他心里種下了一個冷血,可我不后悔?!?/p>

下面這句話是她教給秦昭襄王嬴稷的,被嬴稷銘記在心,并用刀將“王”字刻在手臂上:

3.5 原著小說中的若干關(guān)鍵詞的關(guān)聯(lián)詞分析

在最后,筆者把前面經(jīng)過預(yù)處理得到的小說文本進(jìn)行詞向量處理,將這些詞匯映射到向量空間,變成一個個詞向量(WordVector),以使這些詞匯在便于被計算機(jī)識別和分析的同時,還具有語義上的相關(guān)性,而不僅僅是基于詞匯之間的共現(xiàn)關(guān)系。

筆者分別將劇中的“秦昭襄王”、“白起”和“宣太后”做了語義聯(lián)想,也就是于計算詞語之間的語義相似度,找出與之最為相似的TOP20詞匯。結(jié)果如下表所示:

從上表中可以看出,與秦昭襄王嬴稷最相關(guān)的詞是和他密切相關(guān)的人物,如宣太后、白起、王稽和魏冉等。而離自己最近的卻是“秦王”二字,但做秦王不易,連他自己也說:

這和毛主席的那句,“牢騷滿腹愁腸斷,風(fēng)物長宜放眼量”有異曲同工之妙,不過這句話還有一層意思,作為深系國家命運(yùn)的君王,要想成為雄主,就要對自己狠一點!

對于戰(zhàn)神白起,與他密切相關(guān)的是他的妻子荊梅,電視劇中為趙女趙曼,其次就是秦昭襄王。

說起這對君臣CP,前后相處的景況令人唏噓。

下面一個是秦昭襄王繼位之初,求教白起讀書之道和兵法之道的場景:

這樣的場景可以看出君臣之間的融洽、和諧,從中,我們也可以了解到白起用兵的獨到之處—不墨守成規(guī),善于根據(jù)實際情況調(diào)整戰(zhàn)略部署。這也可以解釋為什么在后來的秦趙之戰(zhàn)中,白起能打破《孫子兵法》中”十則圍之,五則攻之”的兵法黃金原則,而采用50萬對50萬的“等量包圍”策略,從而贏得了決定秦國國運(yùn)的關(guān)鍵一戰(zhàn)。

而最后,君臣之間落了個不歡而散的下場,曾經(jīng)情同兄弟的君臣關(guān)系跌落到了谷底,變得勢如水火……

這幾句從“成業(yè)(成就霸業(yè))”到“得賢(獲得賢才)”、“用賢(任用賢才)”以至于“任賢(信任人才)”,層層揭示,步步深入,最終得出成業(yè)的關(guān)鍵在于信任賢才的結(jié)論,也暗示了白起對于秦昭襄王對自己赤誠之心存疑的不滿。

而秦宣太后最為相近的幾個詞,有自己的兒子嬴稷、同母異父的弟弟兼重臣的魏冉、王族兼重臣的樗里疾、以及后來直接導(dǎo)致她失去權(quán)力的丞相范睢。

值得注意的是,這里和秦宣太后最為相關(guān)的也是“秦王”一詞,不過這里的秦王包括三代秦王—秦惠文王、秦武王和秦昭襄王。

最后,按照“或、與、非”的布爾邏輯,進(jìn)行“與‘秦國’-‘趙國’有關(guān),但和‘楚國’無關(guān)”的最相關(guān)的TOP20的詞匯的計算,得到如下圖所示的詞匯逆序排列。

從上面的TOP20相關(guān)詞可以看出,秦趙兩國之間還夾雜著魏國和韓國,后二者與趙國合稱為“三晉”,緣起于戰(zhàn)國初期韓、趙、魏“三家分晉”。而二國傾舉國之力進(jìn)行正面交鋒的導(dǎo)火索正是“上黨之爭”,上黨的得失直接關(guān)乎趙國國都邯鄲的安危,因而趙國不得不接手這塊“燙手的山芋”。同時,“上黨”也是秦國“東出”的戰(zhàn)略支撐點,是必須攻克的“要塞”,如此才能逐鹿“中原”,合“六國”。

4 結(jié)語

看完這部歷史正劇,筆者自己的有這樣的感慨:

這部說“廟堂的事”的歷史正劇,其演員功力深厚,塑造的人物形象飽滿。宣太后,魏冉、蘇秦、田文、楚王,這些叱咤風(fēng)云的老江湖,聯(lián)手教會了秦昭王如何在險惡中生存,在危機(jī)中壯大,而秦昭王具有強(qiáng)大的學(xué)習(xí)能力,迅速汲取著別人的經(jīng)驗和教訓(xùn),逐步從一個政治手腕稚嫩、備受掣肘的君主成為一個雄霸天下、獨當(dāng)一面的雄主。在這個過程中,他學(xué)會了如何在不利的局面下運(yùn)用謀略,從而實現(xiàn)自己的目的,奠定了秦國崛起東出的霸業(yè)。

參考資料

1. 數(shù)據(jù)來源:新浪微輿情(熱度指數(shù)查詢、全網(wǎng)事件分析、微博事件分析和微博傳播分析)

2 .數(shù)據(jù)來源:頭條媒體實驗室

3.“大秦帝國之崛起”百度百科官方詞條

4.《<大秦帝國之崛起>小說電視劇與真實歷史有何差異?》,觀察者網(wǎng)的博客

5 .文本數(shù)據(jù)來源:《大秦帝國(第三部)之金戈鐵馬》

6.《孫皓暉:要以歷史實踐為標(biāo)準(zhǔn)評價歷史人物》,光明網(wǎng)

7.評論數(shù)據(jù)來源:《大秦帝國之崛起 (2017)》影評

8.Malcolm Gladwell.《The Tipping Point》

#專欄作家#

作者:蘇格蘭折耳喵(微信公眾號:運(yùn)營喵是怎樣煉成的),人人都是產(chǎn)品經(jīng)理專欄作家。數(shù)據(jù)分析愛好者,擅長數(shù)據(jù)分析和可視化表達(dá),喜歡研究各種跟數(shù)據(jù)相關(guān)的東東。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 大佬您好,請問可以分享一下第三部分小說文本挖掘的代碼嗎,僅用于學(xué)習(xí),謝謝??

    回復(fù)
  2. 厲害了

    來自浙江 回復(fù)
  3. 厲害了……

    來自廣東 回復(fù)
  4. 成功圈粉low君熱劇 ??

    來自福建 回復(fù)
  5. 屌屌的·····················

    來自廣東 回復(fù)
  6. 給你個大拇指。大學(xué)時候一口氣通讀了《大秦帝國》,不過電視劇一集都沒有看過

    來自廣東 回復(fù)
    1. 電視劇在某些方面更尊重歷史,但故事性有所削弱

      回復(fù)
  7. 我想知道用了哪些分析工具,效果都好贊。

    來自北京 回復(fù)
    1. 新浪微輿情(熱度指數(shù)查詢、全網(wǎng)事件分析、微博傳播分析),頭條實驗室(熱度查詢、事件監(jiān)控),Python(關(guān)鍵詞提取、爬蟲、文本聚類、典型意見挖掘、自定義詞云、詞向量)

      來自上海 回復(fù)
  8. 高手

    來自廣東 回復(fù)
  9. 來自北京 回復(fù)
    1. 偶遇熟人啊

      來自內(nèi)蒙古 回復(fù)
  10. 高手

    來自上海 回復(fù)