干貨推薦|數(shù)據(jù)可視化的五個步驟
數(shù)據(jù)被稱作是最新的商業(yè)原材料「21世紀的石油」。商業(yè)領(lǐng)域、研究領(lǐng)域、技術(shù)發(fā)展領(lǐng)域使用的數(shù)據(jù)總量非常巨大,并持續(xù)增長。就Elsevier而言,每年從ScienceDirect下載的文章有7億篇,Scopus上的機構(gòu)檔案有8萬個、研究人員檔案有 1 千 3 百萬,Mendeley上的研究人員檔案有 3 百萬。對于用戶來說,從這個數(shù)據(jù)海洋中抓到關(guān)鍵信息越來越難。
許多先進的可視化方式(如:網(wǎng)絡(luò)圖、3D 建模、堆疊地圖)被用于特定用途,例如 3D 醫(yī)療影像、模擬城市交通、救災監(jiān)督。但無論一個可視化項目有多復雜,可視化的目的是幫助讀者識別所分析的數(shù)據(jù)中的一種模式或趨勢,而不是僅僅給他們提供冗長的描述,諸如:“ 2000 年 A 的利潤比 B 高出 2.9 % ,盡管 2001 年 A 的利潤增長了 25 % ,但 2001 年利潤比 B 低 3.5 % ”。出色的可視化項目應(yīng)該總結(jié)信息,并把信息組織起來,讓讀者的注意力集中于關(guān)鍵點。
對于 Elsevier’s Analytical Services 的項目而言,我們一直在尋找提升數(shù)據(jù)分析和可視化的方式。例如,在我們對于研究表現(xiàn)的分析中有大量關(guān)于研究合作的數(shù)據(jù);我們?yōu)?Science Europe 提供的報告(Comparative Benchmarking of European and US Research Collaboration and Researcher Mobility) 包含跨州合作以及國際合作的數(shù)據(jù),這些數(shù)據(jù)不適合直接用二維表和X-Y圖展示。
為了探索數(shù)據(jù)背后的故事,我們使用了網(wǎng)絡(luò)關(guān)系圖來識別國家間的合作,并了解每個合作關(guān)系的影響。
本文提供一份包含五個步驟的數(shù)據(jù)可視化指南,為想用表格、圖形來傳播觀察結(jié)果、解讀分析結(jié)果的人士提供幫助。要記住,建立好的可視化項目是一個反復迭代的過程。
第1步-明確問題
開始創(chuàng)建一個可視化項目時,第一步是明確要回答的問題,又或者試著回答下面的問題“這個可視化項目會怎樣幫助讀者?”
表 1–數(shù)據(jù)集中的三條記錄
圖1-槽糕的可視化項目并不澄清事實,而是引人困惑。此圖中包含太多變量
清晰的問題可以有助于避免數(shù)據(jù)可視化的一個常見毛病:把不相干的事物放在一起比較。假設(shè)我們有這樣一個數(shù)據(jù)集(見表 1 ),其中包含一個機構(gòu)的作者總數(shù)、出版物總數(shù)、引用總數(shù)和它們特定一年的增長率。
圖1是一個糟糕的可視化案例,所有的變量都被包含在一張表格中。在同一張圖中繪制出不同類型的多個變量,通常不是個好主意。
注意力分散的讀者會被誘導著去比較不相干的變量。
比如,觀察出所有機構(gòu)的作者總數(shù)都少于出版物總數(shù),這沒有任何意義,又或者發(fā)現(xiàn) Athena University、Bravo University、Delta Institution 三個研究機構(gòu)的出版物總數(shù)依次增長,也沒有意義。擁擠的圖表難以閱讀、難以處理。在有多個 Y 軸時就是如此,哪個變量對應(yīng)哪個軸通常不清晰。簡而言之,槽糕的可視化項目并不澄清事實而是引人困惑。
第2步-從基本的可視化著手
確定可視化項目的目標后,下一步是建立一個基本的圖形。它可能是餅圖、線圖、流程圖、散點圖、表面圖、地圖、網(wǎng)絡(luò)圖等等,取決于手頭的數(shù)據(jù)是什么樣子。在明確圖表該傳達的核心信息時,需要明確以下幾件事:
- 我們試圖繪制什么變量?
- X 軸和軸代表什么?
- 數(shù)據(jù)點的大小有什么含義嗎?
- 顏色有什么含義嗎?
- 我們試圖確定與時間有關(guān)趨勢,還是變量之間的關(guān)系?
有些人使用不同類型的圖表實現(xiàn)相同目標,但并不推薦這樣做。不同類型的數(shù)據(jù)各自有其最適合的圖表類型。
比如,線形圖最適合表現(xiàn)與時間有關(guān)的趨勢,亦或是兩個變量的潛在關(guān)系。當數(shù)據(jù)集中的數(shù)據(jù)點過多時,使用散點圖進行可視化會比較容易。
此外,直方圖展示數(shù)據(jù)的分布。直方圖的形狀可能會根據(jù)不同組距改變,見圖 2 。(在繪制直方圖時,本質(zhì)是在繪制柱狀圖來展示特定范圍內(nèi)有多少數(shù)據(jù)點。這個范圍叫做組距。)
圖2-當組距變化,直方圖的形狀也發(fā)生變化。
組距太窄會導致起伏過多,讓讀者只盯著樹木卻看不到整個森林。此外,你會發(fā)現(xiàn),在完成下一個步驟以后,你可能會想要修改或更換圖表類型。
第3步-確定最能提供信息指標
假設(shè)我們有另一個關(guān)于某研究機構(gòu)出版物數(shù)量的數(shù)據(jù)庫(見表 2 )??梢暬^程中最關(guān)鍵的步驟是充分了解數(shù)據(jù)庫以及每個變量的含義。從表格中可以看出,在 A 領(lǐng)域(Subject A),此機構(gòu)出版了 633 篇文章,占此機構(gòu)全部文章的 39% ;相同時間內(nèi)全球此領(lǐng)域共出版了 27738 篇文章,占全球總量的 44% 。 注意,B 列中的百分比累計超過 100% ,因為有些文章被標記為屬于多個領(lǐng)域。
在這個例子中,我們想了解此機構(gòu)在各個領(lǐng)域發(fā)表了多少文章。出版數(shù)量是一個有用的指標,不僅如此,與下面這些指標對照會呈現(xiàn)出更多信息:
- 此領(lǐng)域的研究成果總量( B 列)
- 此領(lǐng)域的全球活躍程度
由此,我們可以確定一個相對活躍指標,1.0 代表全球平均活躍程度。高于 1.0 代表高于全球水平,低于 1.0 代表低于全球水平。用 B 列的數(shù)據(jù)除以 D 列,得到這個新的指標,見表 2 。
表2-用B列的數(shù)據(jù)除以D列,得到新的指標:相對活躍程度(E欄)。
第4步-選擇正確的圖表類型
現(xiàn)在我們可以用雷達圖來比較相對活躍指數(shù),并著重觀察指數(shù)最高/最低的研究領(lǐng)域。例如,此機構(gòu)在 G 領(lǐng)域的相對活躍指數(shù)最高( 1.8 ),但是,此領(lǐng)域的全球總量遠遠小于其他領(lǐng)域(見圖 3 )。雷達圖的另一個局限是,它暗示各軸之間存在關(guān)系,而在本案例中這關(guān)系并不存在(各領(lǐng)域并不相互關(guān)聯(lián))。
圖3-相對活躍指數(shù)雷達圖
數(shù)據(jù)的規(guī)范化(如本例中的相對活躍指數(shù))是一個很常見也很有效的數(shù)據(jù)轉(zhuǎn)換方法,但需要基于幫助讀者得出正確結(jié)論的目的使用。如在此例中,僅僅發(fā)現(xiàn)目標機構(gòu)對某個小領(lǐng)域非常重視沒太大意義。
我們可以把出版量和活躍程度在同一個圖表中展示,以理解各領(lǐng)域的活躍程度。使用圖 4 的玫瑰圖,各塊的面積表示文章數(shù)量,半徑長短表示相對活躍指數(shù)。注意在此例中,半徑軸是二次的(而圖 3 中是典型線性的)。圖中可以看出,B 領(lǐng)域十分突出,擁有最大的數(shù)量(由面積表示)和最高的相對活躍程度(由半徑長度表示)。
圖4-玫瑰圖。此圖中各塊面積表示文章數(shù)量,半徑長短表示相對活躍指數(shù)(E列)。
第5步-將注意力引向關(guān)鍵信息
用肉眼衡量半徑長度可能并不容易。由于在本例中,相對活躍指數(shù)的 1.0 代表此領(lǐng)域的全球活躍程度,我們可以通過給出 1.0 的參照值來引導讀者,見圖 5 。這樣很容易看出哪些領(lǐng)域的半徑超出參考線。
圖5-帶有相對活躍指數(shù)參考線的玫瑰圖
我們還可以使用顏色幫助讀者識別出版物最多的領(lǐng)域。如圖例所示,一塊的顏色深淺由出版物數(shù)量決定。為了便于識別,我們還可以把各領(lǐng)域名稱作為標簽(見圖 6 )。
圖6-玫瑰圖中的顏色深淺代表出版物數(shù)量(顏色越亮,出版物越多)
結(jié)論
數(shù)據(jù)可視化的方法有很多。新的工具和圖表類型不斷出現(xiàn),每種都試圖創(chuàng)造出比之前更有吸引力、更有利于傳播信息的圖表。我們的建議是記住以下原則:可視化項目應(yīng)該去總結(jié)關(guān)鍵信息并使之更清晰直白,而不應(yīng)該令人困惑,或用大量的信息讓讀者的大腦超載。
原作者:Georgin Lau and Lei Pan
翻譯:王鵬宇
via:Datartisan數(shù)據(jù)工匠
原文地址:http://www.36dsj.com/archives/39986
- 目前還沒評論,等你發(fā)揮!