以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘
本文作者將以《大秦帝國之崛起》作為分析對象,來詳細(xì)闡述在大數(shù)據(jù)時代數(shù)據(jù)分析會涉及到的全網(wǎng)輿情分析、微博傳播分析以及文本挖掘。
今年開年,拖延上映的《大秦帝國之崛起》(以下簡稱為“崛起”),終于在劇迷的千呼萬喚中播出。
這部根據(jù)孫皓暉同名小說改編的電視劇是“大秦帝國”系列的第三部,首部《大秦帝國之裂變》,第二部《大秦帝國之縱橫》分別于2009年、2013年播出,均獲得不錯的口碑,第三部《大秦帝國之崛起》因為上面的原因而補(bǔ)拍,直到今年年初才在央視開播。
本文將以該劇作為分析對象,來詳細(xì)闡述在大數(shù)據(jù)時代數(shù)據(jù)分析會涉及到的三個“子課題”:
- 全網(wǎng)的輿情分析:基于全網(wǎng)媒體或網(wǎng)民關(guān)于該劇的探討,進(jìn)行“Social Listening(社會化聆聽)”,了解該劇整體口碑概況
- 微博傳播分析:基于新浪微博某條對于該劇具有重大影響力的微博的傳播情況,了解該條微博的傳播規(guī)律,互動粉絲的畫像,以及水軍的辨識
- 文本挖掘:通過對該劇相關(guān)非結(jié)構(gòu)化文本數(shù)據(jù)的分析,了解其獲得觀眾較高認(rèn)可的原因
在接下來的分析中,筆者將結(jié)合分析工具(新浪微輿情、頭條媒體實驗室、Python、Gephi等)、分析思路(分析角度和分析流程)、業(yè)務(wù)知識(對該劇的了解和原著小說的認(rèn)知),來談?wù)勔粋€完整的數(shù)據(jù)分析case如何完成,上面所涉及的3個子課題是本文分析的重點。下圖是本文的主要內(nèi)容和文章結(jié)構(gòu):
1“崛起”的全網(wǎng)輿情分析
1.1 全網(wǎng)關(guān)注情況
(1)“崛起”的全網(wǎng)關(guān)注度走勢
因為該劇播出的時間段是2017-2-9~2017-3-6,故筆者選取了在該劇播出前后略有延展的時間區(qū)間,以便觀察這段時間內(nèi)關(guān)于該劇的全網(wǎng)信息量走勢。
大秦帝國之崛起全網(wǎng)關(guān)注度走勢圖(2-1~3-13)
從全網(wǎng)總體的關(guān)注度來看,在電視劇播出前的關(guān)注量較少,而在電視劇播出期間的關(guān)注度(有關(guān)該劇的網(wǎng)絡(luò)信息量)陡然上升,在播出的第一天(2017-2-9)關(guān)注度就出現(xiàn)了明顯在上升。在該劇在播出結(jié)束后(2017-3-6),信息量逐漸減少,呈下降趨勢。
(2)“崛起”的全網(wǎng)關(guān)注度來源
從各信息發(fā)布渠道的表現(xiàn)來看,該劇在微博(新浪微博和騰訊微博)上的信息量占據(jù)主導(dǎo)地位,“二次崛起”后的微博仍是娛樂影視的主陣地,是粉絲與主創(chuàng)團(tuán)隊進(jìn)行互動的首選。下圖是“崛起”的全網(wǎng)信息量來源構(gòu)成。
除去微博的信息之后,則可以看到除微博(新浪微博和騰訊微博)以外哪些信息渠道關(guān)于該劇的討論量較多。
由此可以看出,新浪博客、百度貼吧這樣的泛娛樂化社區(qū)關(guān)于該劇的討論也頗多,前者濫觴于明星入駐,是全國最主流,人氣頗高的博客頻道之一;而百度貼吧是全球最大的中文社區(qū),是“粉絲文化”的催化劑。百度貼吧的迅速走紅,是與“粉絲”及“粉絲文化”的流行緊密相關(guān)的,而在“粉絲文化”的發(fā)展過程中,百度貼吧也起到了重要作用。
1.2 全網(wǎng)關(guān)于“崛起”的關(guān)注點
(1)“崛起”的全網(wǎng)信息形成的關(guān)鍵詞云
以下是全網(wǎng)關(guān)于“崛起”的文本信息的關(guān)鍵詞提取,總計有60個,這些關(guān)鍵詞來自于媒體報道,抑或用戶UGC評論,從中我們可以發(fā)現(xiàn)網(wǎng)路上關(guān)于該劇的討論集中在哪些關(guān)鍵點上。
從上圖中可以看出,除了本劇的片名—“大秦帝國”以外,還有一些比較反映該劇特征的詞匯,根據(jù)筆者對該劇的了解,特挑出其中主要的兩類詞匯:
- 劇集相關(guān):“收視”和“收視率”(在無大規(guī)模宣傳的情況下,收視率一路走高)、“拍戲”、“張博”(飾演秦昭襄王嬴稷的演員)、“導(dǎo)演”、“劇本”、“創(chuàng)作”、“花絮”、“創(chuàng)作者”
- 該劇的意義:“文化”、“歷史”、“陜西”、“國家”、“文明”、“秦國”、“正劇”、“大秦”,(這類詞匯能在一定程度上代表該劇想要表達(dá)的價值觀—居今之世,志古之道,所以自鏡,拒絕戲說,尊史重實)
(2) 與“崛起”相關(guān)的關(guān)聯(lián)詞分析
全網(wǎng)事件的熱度信息關(guān)聯(lián)詞分析,它是通過系統(tǒng)自動運(yùn)算找出事件核心詞、并計算出與核心詞同時出現(xiàn)關(guān)聯(lián)度最高的高頻詞,也就是與核心詞共現(xiàn)頻率最高的詞匯(關(guān)于“共現(xiàn)”的原理介紹,請看《如何用數(shù)據(jù)分析,搞定新媒體運(yùn)營的定位和內(nèi)容初始化?》的第三部分)。
假若讀者看過該劇,從上面的關(guān)聯(lián)詞即可看出,該劇的“正劇”屬性確鑿無疑,是一部獨具匠心的佳??!
(3)與“崛起”相關(guān)的熱門文章
這里的關(guān)于“熱門”文章的定義主要是通過三個維度綜合得出,即閱讀量、轉(zhuǎn)發(fā)量和評論量的綜合評價。
上面有7篇個熱門文章,它們在全網(wǎng)信息中的綜合得分(閱讀量、轉(zhuǎn)發(fā)量和評論量)最高。從這幾篇文章的標(biāo)題可以看出,它們主要以預(yù)告即將播出的劇集的劇情為主,關(guān)于劇中主要人物的出場及情節(jié)預(yù)告居多,由此可見該劇的關(guān)注度較高。
1.3 關(guān)注網(wǎng)民的人群畫像
以下數(shù)據(jù)來源于選自“頭條媒體實驗室”,基于今日頭條7億累計激活用戶,7800萬日活用戶(截至2016年12月底)的海量行為數(shù)據(jù)及文章數(shù)據(jù)。鑒于今日頭條龐大的用戶數(shù)量,對其相關(guān)人群進(jìn)行分析可以起到“管中窺豹”、“一葉知秋”的效用。如果該用戶點擊并閱讀跟“大秦帝國之崛起”影視相關(guān)的文章,則判定該用戶對該劇感興趣。
(1) 關(guān)注網(wǎng)民的性別滲透率及年齡滲透率
此處,用滲透率(度)來表示用戶對特定事件關(guān)注度的比例,而非絕對值。有可能出現(xiàn)的情況是:一個人口稀少的地區(qū)有一百個人的人關(guān)注了某事件,相比一個人口大省有一萬人關(guān)注該話題,計算得到的滲透率(度)可能更高。
以下是這兩類滲透率的計算公式:
- 性別滲透率:某性別用戶對關(guān)鍵詞的關(guān)注度/全網(wǎng)該性別用戶總關(guān)注度
- 年齡滲透率:某年齡段用戶關(guān)鍵詞的關(guān)注度/全網(wǎng)該年齡段用戶總關(guān)注度
從上圖可以看出,“崛起”的男觀眾要多于女觀眾,當(dāng)然這也在預(yù)料之中。年齡方面,青年群體(18-30)對該劇的熱衷程度要比想象中的高,說明在當(dāng)今這樣一個盛行“宮斗撕逼瑪麗蘇”、“手撕鬼子褲腰藏雷”和“玄幻科幻架空歷史”的戲說歷史、全民娛樂時代,大家還是蠻希望有良心、有匠心、不浮躁的優(yōu)秀劇集出現(xiàn),并不是“劣幣驅(qū)逐良幣”或者是一味的迎合大眾口味的“糙劇”。
(2)關(guān)注網(wǎng)民的地域分布
意料之外,情理之中,這部主創(chuàng)團(tuán)隊(原著小說作者、導(dǎo)演、制片人)全部是“秦人”(陜西人)的影視劇,陜西地區(qū)的受眾關(guān)注度(閱讀量、轉(zhuǎn)發(fā)量、評論量等)最高。
“大秦帝國”系列電視劇,展現(xiàn)了一幅波瀾壯闊的圖景:
在一個熱血的時代,一個積貧積弱的偏蠻小國由幾代秦國人奮發(fā)圖強(qiáng),秉承著“赳赳老秦,共赴國難,血流不干,誓不休戰(zhàn)”的大無畏精神,歷經(jīng)磨難終于實現(xiàn)大國夢。
出于對祖先的崇敬和身為秦人后裔的自豪,陜西地區(qū)的網(wǎng)民對于該劇的關(guān)注度高不足為奇。
(3) 關(guān)注網(wǎng)民的興趣圖譜
該部分度量了關(guān)注“崛起”的受眾的整體興趣情況,同樣是根據(jù)他們閱讀文章的類別(如“科技”、“歷史”等)來進(jìn)行判斷的,以此為指標(biāo)對各興趣類別在關(guān)注該話題的人群中從高到低進(jìn)行排序。
“用戶興趣”的計算公式:
某興趣類別的用戶對關(guān)鍵詞的關(guān)注度/某興趣類別用戶總關(guān)注度
在這里,興趣圖譜分為3層,越往下分則越細(xì)致。結(jié)合上面的年齡、性別和地域因素,從這些興趣圖譜中,我們能得到關(guān)于受眾人群更為深層的洞察。
通過上面對受眾興趣圖譜層層遞進(jìn)的“鉆取”,我們可以看到,他們主要的興趣有“國際足球”、“中國古代史”、“電影”、“中國足球”、“NBA”、“購房”和“法律”。結(jié)合先前的2個人群畫像維度,可以判斷出喜愛《大秦帝國之崛起》的人群是一些酷愛歷史(尤其是中國古代史)、和運(yùn)動,且具有一定經(jīng)濟(jì)實力的中青年群體,他們具有較高的文化素養(yǎng)。
2“崛起”的熱門微博傳播分析
在前面的全網(wǎng)輿情分析中筆者有提到,該?。ㄆ鋵嵈蟛糠钟耙晞〗允侨绱耍┰谖⒉┥系穆暳繕O高,所以筆者在這一部分著重描述下它在微博上的聲量表現(xiàn)。
其實,造成微博上聲量較大的原因,絕大部分是因為用戶參與轉(zhuǎn)發(fā)或是評論了某條微博,每一條轉(zhuǎn)發(fā)和評論都被視為一個用戶UGC。而微博文本每天13萬的日發(fā)博量和短視頻每天的32萬日發(fā)布數(shù)量,這兩方面每天形成的內(nèi)容體量是相當(dāng)龐大的。(新浪微博2016年年終數(shù)據(jù))
又因為,微博上“注意力資源”分配極不均勻,少數(shù)大V博主擁有龐大的粉絲資源,他們發(fā)布的內(nèi)容往往能引起微博上廣大民眾的討論,能造成極大的影響力。
鑒于此,筆者選擇了微博上一個關(guān)于影視娛樂的自媒體大v—“l(fā)ow君熱劇”,該賬號曾傳播過一條跟“崛起”相關(guān)的微博,用戶互動較為活躍,權(quán)當(dāng)“解剖麻雀”之用。
筆者選取了一條帶視頻的微博,下面的播放量、轉(zhuǎn)發(fā)量、評論量和點贊量都較為可觀??梢宰鳛槲⒉﹤鞑シ治龅囊粋€例子。
以下關(guān)于該條微博的傳播分析,數(shù)據(jù)來源及相關(guān)可視化呈現(xiàn)皆來自于新浪微輿情的微博傳播分析(微分析)功能模塊。
2.1?傳播概況
截至分析時間03-18 11:50,@low君熱劇?的微博共收獲轉(zhuǎn)發(fā)數(shù)13,393次(其中有效轉(zhuǎn)發(fā)10,576次)、 評論數(shù)2,209條,點贊數(shù)29,646個。
此外,該條微博的覆蓋人次為20,260,770,包括原創(chuàng)者(也就是“l(fā)ow君熱劇”)和轉(zhuǎn)發(fā)者的粉絲數(shù)的疊加,當(dāng)然也免不了重復(fù)計算,但整體的傳播效果是驚人的。注意,這是沒有排除水軍的數(shù)據(jù)。
內(nèi)容敏感度為0.27%,也就是說,關(guān)于該條微博的用戶評論中僅有0.27%的評論是呈負(fù)面的,這個量很小。
值得注意的是,原創(chuàng)者“l(fā)ow君熱劇”自身是此條微博的關(guān)鍵傳播用戶,這個看起來有點費解,筆者會在下面有詳述。
2.2?轉(zhuǎn)發(fā)評論趨勢
一條微博的傳播是有生命周期的。能夠十分清晰的觀察到該微博轉(zhuǎn)發(fā)、評論的發(fā)展趨勢,微博的互動及散播活躍與否,以及處于生命周期的哪個階段(引發(fā)期、醞釀期、發(fā)生期、發(fā)展期、高潮期、處理期、平息期和反饋期),對于及時、準(zhǔn)確研判事件及輿情走向起到至關(guān)重要的作用。
從上圖可以看出,該微博于03-17 12:05發(fā)布后,于03-17 12:30、03-17 23:30達(dá)到轉(zhuǎn)發(fā)、評論高峰,轉(zhuǎn)發(fā)峰值516條、評論峰值34條,此后微博傳播速度逐漸降低。
同時,意見領(lǐng)袖也是在該條微博的傳播高峰期進(jìn)行活躍的,圖中深黃色的圓圈即代表它們引起的轉(zhuǎn)發(fā)量。
2.3?傳播層級
轉(zhuǎn)發(fā)層級可以看出某個微博傳播滲透力的強(qiáng)弱,層級越多,代表話題的滲透性和傳播性越強(qiáng),微博粉絲的參與度也就越高。
本條微博的傳播層級為5級,在傳播深度上一般,滲透力不足,說明本話題以及該劇屬于小眾圈子。
值得注意的是,在剔除掉水軍及僵尸粉之類的用戶后,該條微博的覆蓋人次變更為18,070,952,跟初始覆蓋人次相差了100多萬的人次數(shù)。
在這里,原創(chuàng)者“l(fā)ow君熱劇”有重復(fù)出現(xiàn)多次,這是為什么呢?請接著往下看。
2.4?傳播路徑
微博傳播路徑分析是微博傳播分析中的重中之重,分析微博傳播路徑圖能發(fā)現(xiàn)其中的關(guān)鍵傳播樞紐節(jié)點(意見領(lǐng)袖)和識別傳播質(zhì)量。
下圖是傳播路徑圖中常見的三種傳播節(jié)點類型。
聯(lián)系Malcolm Gladwell在《引爆點”(The Tipping Point)》中提出的觀點,原創(chuàng)節(jié)點、傳播節(jié)點和長尾節(jié)點非常接近其表述的、在某類流行事件中的三種主要角色:
- 聯(lián)系員:就是那種“認(rèn)識了很多人的人”,這類人把朋友當(dāng)作郵票一樣地搜集,隨時與人保持聯(lián)系,這個角色可以把信息快速的散布出去。
- 內(nèi)行:就是那種“什么都懂的人”,他對某一種知識可以說是“達(dá)人”,不厭其煩地把相關(guān)的知識與朋友分享,但是卻沒有很好的說服力。這個角色對某件事情的狂熱,使他所發(fā)掘出來的事情成為有價值的。
- 推銷員:就是那種“什么人都能夠說服的人”這種人沒有很深的知識,但是有特殊的能力讓見到面的人在短暫的時間就交付信任。這個角色能夠把內(nèi)行發(fā)現(xiàn)的東西與人們以簡易的語言溝通。
稍有差異的是,處在長尾節(jié)點位置的粉絲,多半是被動的接收者,傳播層級到他們這里基本戛然而止,但如果長期接收某一類事物信息,他們也會變成該事物的忠實擁簇,會轉(zhuǎn)變?yōu)槁?lián)系人或者內(nèi)行。
從微博傳播分析系統(tǒng)上獲取傳播節(jié)點相關(guān)的數(shù)據(jù)之后,筆者利用復(fù)雜網(wǎng)絡(luò)分析工具Gephi,基于Fruchterman Reingold的力導(dǎo)向算法和Modularity Class的譜聚類算法,得到了如下能反映該條微博傳播路徑及傳播社群關(guān)系的微博傳播路徑圖。(Gephi詳細(xì)使用方法請參看《萬字干貨|10款數(shù)據(jù)分析“工具”,助你成為新媒體運(yùn)營領(lǐng)域的“增長黑客”》)
從上圖可以看出,“l(fā)ow君熱劇”在該條微博的傳播過程中出現(xiàn)了很多次,而且其中呈明黃色的樞紐傳播節(jié)點也是本尊。那究竟它們是同一個賬號轉(zhuǎn)發(fā)了很多次呢,還是同名但不同賬號各自發(fā)布了一條信息呢?我們接著往下看。
調(diào)出關(guān)于傳播節(jié)點的基礎(chǔ)數(shù)據(jù),得到下面關(guān)于本條微博TOP轉(zhuǎn)發(fā)20的列表。
從上表可以看出,在轉(zhuǎn)發(fā)數(shù)TOP20中,“l(fā)ow君熱劇”包攬了狀元、榜眼、探花和傳臚這前四名。第一列的的“發(fā)布微博ID”代表某個賬號將本條微博重新轉(zhuǎn)發(fā),形成一條新的微博(ID)。因而,“l(fā)ow君熱劇”在本條微博的傳播中,總共發(fā)布了4次,將“聯(lián)系人”“內(nèi)行”和“推銷員”的角色都過了一遍,而且二次轉(zhuǎn)發(fā)效果上佳,不得不說,只有這樣粉絲過百萬且活躍度極高的微博大v才能這么玩,而且玩的不亦樂乎!
2.5?互動粉絲畫像分析
筆者把傳播者分為兩類,即轉(zhuǎn)發(fā)者和評論者,將二者分別進(jìn)行分析。
一般來說,如果沒有水軍操作的話,這兩類群體的屬性應(yīng)該基本一致。評論者的互動意愿更強(qiáng),且機(jī)器操作的難度較大。
(1)轉(zhuǎn)發(fā)者和評論者的性別分析
從上圖可以看出,轉(zhuǎn)發(fā)者和評論者的性別占比趨近一致,都是女性壓倒性的超過男性。貌似和該劇面向的群體不太一樣,不過,我們需要知道的是,“l(fā)ow君熱劇”平時發(fā)布的關(guān)于影視劇的微博之類繁復(fù),像《大秦帝國之崛起》這種風(fēng)格的影視劇不是主流,平時它的畫風(fēng)是這樣的:
這樣就不難理解,為何歷史正劇互動的女粉絲較多,因為這個大v平時吸聚的粉絲多半是女性群體~
(2)轉(zhuǎn)發(fā)者和評論者的地域分布
從上圖看來,轉(zhuǎn)發(fā)者和評論者的地域分布差異較大,轉(zhuǎn)發(fā)者集中在東北黑龍江,而評論者主要集中在南方。聯(lián)系前面的傳播路徑分析,該條微博人為干預(yù)較為突出。
(3)轉(zhuǎn)發(fā)者和評論者的興趣標(biāo)簽
從上圖可以看出,該條轉(zhuǎn)發(fā)群體和評論群體的興趣圖譜幾近一致—都是熱愛生活、喜好休閑娛樂的樂活一族。
綜合上述關(guān)于微博傳播分析的5個維度,本條微博的傳播有輕微人為干預(yù),不是大面積的商業(yè)推動行為,微博傳播情況正常。
3 原著相關(guān)的文本分析
在本部分,筆者選取了《大秦帝國之崛起》相關(guān)的原著小說進(jìn)行分析,即《大秦帝國之金戈鐵馬》。
與影視劇不同的是,原著小說交代了秦昭襄王嬴稷上位前的一段經(jīng)過,比如秦武王討伐東周并舉鼎而亡,以及秦宣太后和嬴稷質(zhì)于燕,等等。
以下筆者就從文本挖掘的角度來分析一下原著小說、觀眾影評等方面的文本分析。
不過,在進(jìn)行正式的分本分析前,需要對原著小說文本進(jìn)行預(yù)處理,也就是:
- 詞匯替換:同一個人名的不同稱謂
- 中文分詞:一個漢字序列切分成一個一個單獨的詞
- 停用詞過濾:過濾掉2類“無意義”的詞匯:一類是人類語言中包含的功能詞,這些功能詞極其普遍,與其他詞相比,功能詞沒有什么實際含義,比如’你’、’我’、’的’、’或者’、’而是’等;另一類詞包括詞匯詞,比如’想要’、‘打開’等,這些詞應(yīng)用十分廣泛,對于揭示特定文本的含義的重要性意義不大
此外,還需要統(tǒng)一原著中的人名稱謂,將在文本中具有多個稱呼的人物統(tǒng)一為一個名稱,便于精準(zhǔn)的統(tǒng)計人物出現(xiàn)的頻次及其相關(guān)關(guān)系。
人物名稱替換表見下表。
預(yù)處理效果如下圖所示:
3.1 原著小說的關(guān)鍵詞提取
筆者沒采取一般文本分析時所采用的詞頻統(tǒng)計,因為詞頻統(tǒng)計的邏輯是:一個詞在文章中出現(xiàn)的次數(shù)越多,則它就越重要。但筆者采用的是TF-IDF(term frequency–inverse document frequency)關(guān)鍵詞統(tǒng)計方法:它用以評估一字/詞對于一個文件集或一個語料庫中的其中一份文件的重要程度,字/詞的重要性會隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。
由此可見,在提取某段文本的關(guān)鍵信息時,關(guān)鍵詞提取較詞頻統(tǒng)計更為可取,能提取出對某段文本具有重要意義的關(guān)鍵詞。
以下是該原著小說的關(guān)鍵詞TOP300,筆者用電視劇的海報作為詞云輪廓,大家可以在詞云中看到關(guān)鍵的信息,和電視劇“崛起”做一下對照。
在關(guān)鍵詞TOP100中,基本上都是跟秦國/秦軍相關(guān)的詞,秦國君臣秦昭襄王嬴稷、秦武王、范睢、白起、魏冉和甘茂等;秦國的死對頭—齊國、趙國和楚國等;一些重要的他國人物,魯仲連、藺相如、廉頗、春申君和趙奢等…
等等,“魯仲連”什么鬼?電視劇里壓根沒瞧見哪!
這就涉及《大秦帝國之崛起》的原著小說和電視劇本身的差異了,它們的差別是顯而易見,甚至在第二部和第三部被“摒棄”出制作團(tuán)隊的原著小說作者孫皓暉也說,“電視劇相較原著改編幅度太大,完全可以另外取個名字” 。
綜合來看,筆者認(rèn)為,電視劇和原著小說不同之處主要集中在如下方面:
- 內(nèi)容起始不同。原著中第三部以秦武王即位后發(fā)動宜陽大戰(zhàn)、通三川窺周室為開端,白起在其中嶄露頭角;而電視劇中將此部分并入了第二部,第三部直接從嬴稷親政之后開始。
- 關(guān)于甘茂的結(jié)局。在原著中,甘茂因為受到魏冉與宣太后的排擠,憤而離秦,投奔齊國,并為齊國獻(xiàn)策,最終因為齊王的昏庸而隱居山野;而電視劇中改為了嬴稷希望為甘茂求得一個善終,于是聽從了蘇秦的建議,暗中幫助甘茂在齊國謀得上卿之位。
- 關(guān)于白起的定位。在原著中,白起是本部的第一主角,白起所占篇幅超過任何一個其他角色,而本部的結(jié)束也幾乎是以白起身死為完結(jié)的。在迎立嬴稷的過程中,白起發(fā)揮了最主要的作用,同時也展現(xiàn)出白起行事風(fēng)格的鮮明特色;而在電視劇中,白起的功能大為弱化,大多由樗里疾和魏冉代替,當(dāng)然這可能跟主演白起的演員王學(xué)兵吸毒,補(bǔ)拍戲份太多而被迫刪掉一些戲有關(guān)。
- 對于蘇秦這個關(guān)鍵人物的處理。原著中,蘇秦原是第二部《國命縱橫》中的人物。原著按照《史記》和《戰(zhàn)國策》的記載,選用了更為傳統(tǒng)的“張?zhí)K縱橫”之說,使得張儀、蘇秦處于同一時代背景,一人合縱一人連橫,在為我們揭開縱橫大戲的同時,也建立起張?zhí)K并雄的雙子結(jié)構(gòu)。;而在電視劇中,則采用了與原著完全不同的故事版本,遵從了于1973年在長沙馬王堆三號漢墓出土的帛書書,—《戰(zhàn)國縱橫家書》(成書要早于《史記》和《戰(zhàn)國策》)的記載——蘇秦主要活動時間在燕昭王時期,一生最重要的事跡,是以“間者”的身份,為燕滅齊。由此,蘇秦一改從前史書中“從約長兼佩六國相印”的威風(fēng)凜凜,而變成一個城府極深、一心間齊、滅齊而憑一人攪亂戰(zhàn)國格局的“心機(jī)婊”。
不過,他在劇中關(guān)于“篤定”和“忠誠”的一段話很是經(jīng)典,連同劇中虛構(gòu)的一段戀情,體現(xiàn)了他“一生只奉一人主”和“此生若永如初見”的“從一而終”:
總的來說,電視劇中刪去了大量原著中的虛構(gòu)人物和虛構(gòu)情節(jié),增加了大量史料中的人物和情節(jié)。這種做法無疑對原著的故事性有所破壞,但也增加了故事情節(jié)的可靠性和真實性,最大限度的還原歷史。但孰是孰非,還是留給書友們/劇迷們?nèi)プ孕信袛喟伞?/p>
3.2 原著小說中的主要人物的社交網(wǎng)絡(luò)分析
根據(jù)上面的人名詞典,筆者構(gòu)建了原著小說中的主要人物社交網(wǎng)絡(luò)圖譜,并對其中較弱的關(guān)系及人物節(jié)點進(jìn)行了過濾。
上圖中,每個節(jié)點代表一個人物,線條代表人物之間的關(guān)系,相同顏色的人物節(jié)點代表他們之間有著較為頻繁的交往/聯(lián)系(或友或敵)。人物節(jié)點字體的大小所表征的是“Betweenness Centrality (中介性核心性)”,該詞學(xué)術(shù)的說法是“兩個非鄰接的成員間的相互作用依賴于網(wǎng)絡(luò)中的其他成員,特別是位于兩成員之間路徑上的那些成員,他們對這兩個非鄰接成員的相互作用具有某種控制和制約作用“,說人話就是—字體大的人物具有更大的人際關(guān)系影響,能接觸和影響的人物較多,而在小說中出現(xiàn)次數(shù)多的未必就是這類人物,這里的存在感需要以人脈和影響力作為基石。
從上圖中可以看出,在位56年的秦昭襄王嬴稷無疑具有較強(qiáng)的人際網(wǎng)絡(luò)關(guān)系和影響力,更大的人際關(guān)系影響:廣納六國賢才,頻繁與六國君王過招,合作連橫,翻手為云,覆手為雨,后面迫使六國君主尊他為天子,人際影響力不可謂不廣。
其次是趙武靈王—趙雍,這位開創(chuàng)“胡服騎射”的君王,北擊匈奴和胡人,并吞中山國,扶植了燕昭王和秦昭襄王2位君主也是開疆拓土,廣納賢才,在六國中擁有廣泛的人際網(wǎng)絡(luò)。
同樣的道理,“戰(zhàn)國四公子”中的平原君和春申君在六國中的聲望較高,人際資源豐沛。
當(dāng)然,對于統(tǒng)帥趙、楚、韓、魏、燕五國軍隊伐齊的樂毅自不必說。其他人的情況也類似,無一不具有較強(qiáng)的人際網(wǎng)絡(luò)關(guān)系。
3.3 豆瓣上關(guān)于該劇影評的文本聚類和典型意見抽取
豆瓣電影是中國最大與最權(quán)威的電影分享與評論社區(qū),收錄了百萬條影片和影人的資料,有2500多家電影院加盟,更匯聚了數(shù)千萬熱愛電影的人,因而這里關(guān)于影視劇的評論能具有一定的代表性和公信力。
如上圖所示,該劇在豆瓣上的評級較高,達(dá)到8.5分的分值,其中4星和5星評價站到整個評級里的84.6%,正面評價的比例相當(dāng)高。
筆者抓取了豆瓣上關(guān)于該劇的18068條評論信息,按贊同數(shù)的多寡保留了前3000條具有代表性的評論。抓取的數(shù)據(jù)格式如下圖所示:
經(jīng)簡單處理,用AP算法進(jìn)行文本聚類得到如下圖所示的結(jié)果:
最后,AP算法自動將3000條評論劃分成43個類別。
更進(jìn)一步,在文本聚類的基礎(chǔ)上進(jìn)行典型意見挖掘,得到如下結(jié)果:
選取其中最具代表性的意見(也就是包含文檔數(shù)最多的意見),即為:
由上表可知,“豆油”們對于“崛起”的評價主要集中在以下幾個方面:
- 該劇尊重歷史,是一部很不錯的歷史正??;
- 該劇制作精良,還采用了比較真實的現(xiàn)場收音(現(xiàn)場錄音,有如下好處:最簡化音畫匹配問題;鼓勵演員情感真實到位;保留各種聲音與環(huán)境音的真實互動。),是一部良心??;
- 該劇演員的演技很贊,尤其是飾演秦宣太后/羋八子的寧靜。
3.4 《羋月傳》和《大秦帝國》中秦宣太后(羋月)的人物形象差異分析
因為這兩部劇中都涉及了中國歷史上一個有名的女人—秦宣太后,她是第一個自稱“太后”并開啟垂簾聽政的女當(dāng)權(quán)者,且因其傳奇而又復(fù)雜的情感糾葛而引人注(ba)目(gua)。(注:因正史中并未提及“羋月”,史稱“秦宣太后”居多,故筆者在下面僅取后者)
因此,筆者想結(jié)合豆瓣影評的相關(guān)評論數(shù)據(jù),來對《羋月傳》和《大秦帝國2、3》中秦宣太后的人物形象進(jìn)行分析。
為此,筆者爬取了豆瓣上關(guān)于《羋月傳》、《大秦帝國之縱橫》和《大秦帝國之崛起》中涉及秦宣太后及其主演(孫儷、寧靜)的若干評論作為分析對象。
以下是關(guān)于孫儷和寧靜所主演的秦宣太后的評論的文本分析,可以在這張直觀的可視化效果圖上看到“豆油”們對這兩位演員出演秦宣太后方方面面的評價。
上圖中,對于2類評價文本分別按照“高提及率(Frequent)”和“低提及率(Infrequent)”進(jìn)行了劃分。上圖若以橫縱軸的“Average”進(jìn)行劃分,則可以分為4個象限,右上角的為2類文本提及率皆高的詞匯,左下角為二者提及率皆低的詞匯。左上和右下僅是二者之一高提及率的詞匯。
另外,藍(lán)色點陣代表的詞匯屬于對“羋月傳-孫儷”的評價,黃色點陣所代表的的詞匯屬于對“大秦帝國-寧靜”的評價,右上角的象限二者的評語趨于重合。
可以看到,大家還是對兩位主演的演技很關(guān)注,其次是劇中演員的討論:跟孫儷相關(guān)的春申君黃歇及其扮演者黃軒、惠文后及其扮演者馬蘇;寧靜這邊則是秦惠文王及其扮演者富大龍。
點擊“點陣”中的“宮斗”一詞,可以看到“豆油”們對2部電視劇及其演員在劇情“宮斗”方面評價的異同:
從上圖可以看出,孫儷主演的《羋月傳》延續(xù)了《甄嬛傳》中的宮斗情節(jié),“豆油”們評價它“狗血”“狗尾續(xù)貂”、“臉譜化”等,負(fù)面評價比較多;而在寧靜所主演《大秦帝國2 3》評價中,“宮斗”的評價幾乎沒有,而且大家都會拿前者來做對照,“正劇”是大家對它的評價。
再將2類評論文本中的關(guān)鍵詞提取,做成主角所對應(yīng)的的詞云,顯示如下:
從上面的詞云可以看出,“豆油”對于寧靜所主要的秦宣太后的評價最具代表性的詞是“霸氣”、“野性”、“正劇”“不莊重”、“良心”、“氣場”、“育子成龍”和“不怒自威”等,評價多為正面,認(rèn)為寧靜主要的太后野性霸氣,且具有氣場、不怒自威。
從上面的詞云可以看出,“豆油”對于孫儷所主要的秦宣太后的評價最具代表性的詞是 “義渠君”、“浮夸”、“瞪眼”、“太假”、“春申君”、“綠茶婊”、“瑪麗蘇”、“矯情”和“宮斗”等,多為負(fù)面評價,且對其演技的評價不是很好。
從歷史上的記載來看,楚人介于華夏與蠻夷之間,立于東南西北之中,他們的習(xí)俗既有蠻夷之異,亦有華夏之同,具有極強(qiáng)的兼容性。楚人確信自己是日神的遠(yuǎn)裔、火神的嫡嗣,由于日、火均為紅色,因而古時楚人富有激情和生命力,張揚(yáng)不羈。而寧靜飾演的秦宣太后很符合這個特征,她之前還主演過《紅河谷》中善良而又野性、任性的丹珠,《戰(zhàn)國英雄呂不韋》的秦王嬴政的母親趙姬,以及《孝莊秘史》中熱情奔放的的大玉兒(孝莊),這些角色其實與秦宣太后這個角色有很多相同之處。與之相比,出演宮廷內(nèi)斗局揚(yáng)名的孫儷在角色塑造方面過于臉譜化,把這個角色演出了甄嬛的感覺。
在“崛起”中,雖然寧靜所飾演的羋八子霸氣十足,將帝王家的無情、殘忍演繹得淋漓盡致,但她是一個顧全大局,一心為國的女當(dāng)權(quán)者,在電視劇片花末尾,更是展露出尋常母親的心疼與無奈:“為了愛他,我在他心里種下了一個冷血,可我不后悔?!?/p>
下面這句話是她教給秦昭襄王嬴稷的,被嬴稷銘記在心,并用刀將“王”字刻在手臂上:
3.5 原著小說中的若干關(guān)鍵詞的關(guān)聯(lián)詞分析
在最后,筆者把前面經(jīng)過預(yù)處理得到的小說文本進(jìn)行詞向量處理,將這些詞匯映射到向量空間,變成一個個詞向量(WordVector),以使這些詞匯在便于被計算機(jī)識別和分析的同時,還具有語義上的相關(guān)性,而不僅僅是基于詞匯之間的共現(xiàn)關(guān)系。
筆者分別將劇中的“秦昭襄王”、“白起”和“宣太后”做了語義聯(lián)想,也就是于計算詞語之間的語義相似度,找出與之最為相似的TOP20詞匯。結(jié)果如下表所示:
從上表中可以看出,與秦昭襄王嬴稷最相關(guān)的詞是和他密切相關(guān)的人物,如宣太后、白起、王稽和魏冉等。而離自己最近的卻是“秦王”二字,但做秦王不易,連他自己也說:
這和毛主席的那句,“牢騷滿腹愁腸斷,風(fēng)物長宜放眼量”有異曲同工之妙,不過這句話還有一層意思,作為深系國家命運(yùn)的君王,要想成為雄主,就要對自己狠一點!
對于戰(zhàn)神白起,與他密切相關(guān)的是他的妻子荊梅,電視劇中為趙女趙曼,其次就是秦昭襄王。
說起這對君臣CP,前后相處的景況令人唏噓。
下面一個是秦昭襄王繼位之初,求教白起讀書之道和兵法之道的場景:
這樣的場景可以看出君臣之間的融洽、和諧,從中,我們也可以了解到白起用兵的獨到之處—不墨守成規(guī),善于根據(jù)實際情況調(diào)整戰(zhàn)略部署。這也可以解釋為什么在后來的秦趙之戰(zhàn)中,白起能打破《孫子兵法》中”十則圍之,五則攻之”的兵法黃金原則,而采用50萬對50萬的“等量包圍”策略,從而贏得了決定秦國國運(yùn)的關(guān)鍵一戰(zhàn)。
而最后,君臣之間落了個不歡而散的下場,曾經(jīng)情同兄弟的君臣關(guān)系跌落到了谷底,變得勢如水火……
這幾句從“成業(yè)(成就霸業(yè))”到“得賢(獲得賢才)”、“用賢(任用賢才)”以至于“任賢(信任人才)”,層層揭示,步步深入,最終得出成業(yè)的關(guān)鍵在于信任賢才的結(jié)論,也暗示了白起對于秦昭襄王對自己赤誠之心存疑的不滿。
而秦宣太后最為相近的幾個詞,有自己的兒子嬴稷、同母異父的弟弟兼重臣的魏冉、王族兼重臣的樗里疾、以及后來直接導(dǎo)致她失去權(quán)力的丞相范睢。
值得注意的是,這里和秦宣太后最為相關(guān)的也是“秦王”一詞,不過這里的秦王包括三代秦王—秦惠文王、秦武王和秦昭襄王。
最后,按照“或、與、非”的布爾邏輯,進(jìn)行“與‘秦國’-‘趙國’有關(guān),但和‘楚國’無關(guān)”的最相關(guān)的TOP20的詞匯的計算,得到如下圖所示的詞匯逆序排列。
從上面的TOP20相關(guān)詞可以看出,秦趙兩國之間還夾雜著魏國和韓國,后二者與趙國合稱為“三晉”,緣起于戰(zhàn)國初期韓、趙、魏“三家分晉”。而二國傾舉國之力進(jìn)行正面交鋒的導(dǎo)火索正是“上黨之爭”,上黨的得失直接關(guān)乎趙國國都邯鄲的安危,因而趙國不得不接手這塊“燙手的山芋”。同時,“上黨”也是秦國“東出”的戰(zhàn)略支撐點,是必須攻克的“要塞”,如此才能逐鹿“中原”,合“六國”。
4 結(jié)語
看完這部歷史正劇,筆者自己的有這樣的感慨:
這部說“廟堂的事”的歷史正劇,其演員功力深厚,塑造的人物形象飽滿。宣太后,魏冉、蘇秦、田文、楚王,這些叱咤風(fēng)云的老江湖,聯(lián)手教會了秦昭王如何在險惡中生存,在危機(jī)中壯大,而秦昭王具有強(qiáng)大的學(xué)習(xí)能力,迅速汲取著別人的經(jīng)驗和教訓(xùn),逐步從一個政治手腕稚嫩、備受掣肘的君主成為一個雄霸天下、獨當(dāng)一面的雄主。在這個過程中,他學(xué)會了如何在不利的局面下運(yùn)用謀略,從而實現(xiàn)自己的目的,奠定了秦國崛起東出的霸業(yè)。
參考資料
1. 數(shù)據(jù)來源:新浪微輿情(熱度指數(shù)查詢、全網(wǎng)事件分析、微博事件分析和微博傳播分析)
2 .數(shù)據(jù)來源:頭條媒體實驗室
3.“大秦帝國之崛起”百度百科官方詞條
4.《<大秦帝國之崛起>小說電視劇與真實歷史有何差異?》,觀察者網(wǎng)的博客
5 .文本數(shù)據(jù)來源:《大秦帝國(第三部)之金戈鐵馬》
6.《孫皓暉:要以歷史實踐為標(biāo)準(zhǔn)評價歷史人物》,光明網(wǎng)
7.評論數(shù)據(jù)來源:《大秦帝國之崛起 (2017)》影評
8.Malcolm Gladwell.《The Tipping Point》
#專欄作家#
作者:蘇格蘭折耳喵(微信公眾號:運(yùn)營喵是怎樣煉成的),人人都是產(chǎn)品經(jīng)理專欄作家。數(shù)據(jù)分析愛好者,擅長數(shù)據(jù)分析和可視化表達(dá),喜歡研究各種跟數(shù)據(jù)相關(guān)的東東。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
大佬您好,請問可以分享一下第三部分小說文本挖掘的代碼嗎,僅用于學(xué)習(xí),謝謝??
厲害了
厲害了……
成功圈粉low君熱劇 ??
屌屌的·····················
給你個大拇指。大學(xué)時候一口氣通讀了《大秦帝國》,不過電視劇一集都沒有看過
電視劇在某些方面更尊重歷史,但故事性有所削弱
我想知道用了哪些分析工具,效果都好贊。
新浪微輿情(熱度指數(shù)查詢、全網(wǎng)事件分析、微博傳播分析),頭條實驗室(熱度查詢、事件監(jiān)控),Python(關(guān)鍵詞提取、爬蟲、文本聚類、典型意見挖掘、自定義詞云、詞向量)
高手
贊
偶遇熟人啊
高手