干貨推薦|數(shù)據(jù)可視化的五個步驟

0 評論 18098 瀏覽 163 收藏 12 分鐘

數(shù)據(jù)被稱作是最新的商業(yè)原材料「21世紀的石油」。商業(yè)領(lǐng)域、研究領(lǐng)域、技術(shù)發(fā)展領(lǐng)域使用的數(shù)據(jù)總量非常巨大,并持續(xù)增長。就Elsevier而言,每年從ScienceDirect下載的文章有7億篇,Scopus上的機構(gòu)檔案有8萬個、研究人員檔案有 1 千 3 百萬,Mendeley上的研究人員檔案有 3 百萬。對于用戶來說,從這個數(shù)據(jù)海洋中抓到關(guān)鍵信息越來越難。

許多先進的可視化方式(如:網(wǎng)絡(luò)圖、3D 建模、堆疊地圖)被用于特定用途,例如 3D 醫(yī)療影像、模擬城市交通、救災監(jiān)督。但無論一個可視化項目有多復雜,可視化的目的是幫助讀者識別所分析的數(shù)據(jù)中的一種模式或趨勢,而不是僅僅給他們提供冗長的描述,諸如:“ 2000 年 A 的利潤比 B 高出 2.9 % ,盡管 2001 年 A 的利潤增長了 25 % ,但 2001 年利潤比 B 低 3.5 % ”。出色的可視化項目應(yīng)該總結(jié)信息,并把信息組織起來,讓讀者的注意力集中于關(guān)鍵點。

對于 Elsevier’s Analytical Services 的項目而言,我們一直在尋找提升數(shù)據(jù)分析和可視化的方式。例如,在我們對于研究表現(xiàn)的分析中有大量關(guān)于研究合作的數(shù)據(jù);我們?yōu)?Science Europe 提供的報告(Comparative Benchmarking of European and US Research Collaboration and Researcher Mobility) 包含跨州合作以及國際合作的數(shù)據(jù),這些數(shù)據(jù)不適合直接用二維表和X-Y圖展示。

為了探索數(shù)據(jù)背后的故事,我們使用了網(wǎng)絡(luò)關(guān)系圖來識別國家間的合作,并了解每個合作關(guān)系的影響。

本文提供一份包含五個步驟的數(shù)據(jù)可視化指南,為想用表格、圖形來傳播觀察結(jié)果、解讀分析結(jié)果的人士提供幫助。要記住,建立好的可視化項目是一個反復迭代的過程。

第1步-明確問題

開始創(chuàng)建一個可視化項目時,第一步是明確要回答的問題,又或者試著回答下面的問題“這個可視化項目會怎樣幫助讀者?”

3條數(shù)據(jù)記錄

表 1–數(shù)據(jù)集中的三條記錄

較差的直方圖

圖1-槽糕的可視化項目并不澄清事實,而是引人困惑。此圖中包含太多變量

清晰的問題可以有助于避免數(shù)據(jù)可視化的一個常見毛病:把不相干的事物放在一起比較。假設(shè)我們有這樣一個數(shù)據(jù)集(見表 1 ),其中包含一個機構(gòu)的作者總數(shù)、出版物總數(shù)、引用總數(shù)和它們特定一年的增長率。

圖1是一個糟糕的可視化案例,所有的變量都被包含在一張表格中。在同一張圖中繪制出不同類型的多個變量,通常不是個好主意。

注意力分散的讀者會被誘導著去比較不相干的變量。

比如,觀察出所有機構(gòu)的作者總數(shù)都少于出版物總數(shù),這沒有任何意義,又或者發(fā)現(xiàn) Athena University、Bravo University、Delta Institution 三個研究機構(gòu)的出版物總數(shù)依次增長,也沒有意義。擁擠的圖表難以閱讀、難以處理。在有多個 Y 軸時就是如此,哪個變量對應(yīng)哪個軸通常不清晰。簡而言之,槽糕的可視化項目并不澄清事實而是引人困惑。

第2步-從基本的可視化著手

確定可視化項目的目標后,下一步是建立一個基本的圖形。它可能是餅圖、線圖、流程圖、散點圖、表面圖、地圖、網(wǎng)絡(luò)圖等等,取決于手頭的數(shù)據(jù)是什么樣子。在明確圖表該傳達的核心信息時,需要明確以下幾件事:

  1. 我們試圖繪制什么變量?
  2. X 軸和軸代表什么?
  3. 數(shù)據(jù)點的大小有什么含義嗎?
  4. 顏色有什么含義嗎?
  5. 我們試圖確定與時間有關(guān)趨勢,還是變量之間的關(guān)系?

有些人使用不同類型的圖表實現(xiàn)相同目標,但并不推薦這樣做。不同類型的數(shù)據(jù)各自有其最適合的圖表類型。

比如,線形圖最適合表現(xiàn)與時間有關(guān)的趨勢,亦或是兩個變量的潛在關(guān)系。當數(shù)據(jù)集中的數(shù)據(jù)點過多時,使用散點圖進行可視化會比較容易。

此外,直方圖展示數(shù)據(jù)的分布。直方圖的形狀可能會根據(jù)不同組距改變,見圖 2 。(在繪制直方圖時,本質(zhì)是在繪制柱狀圖來展示特定范圍內(nèi)有多少數(shù)據(jù)點。這個范圍叫做組距。)

直方圖

圖2-當組距變化,直方圖的形狀也發(fā)生變化。

組距太窄會導致起伏過多,讓讀者只盯著樹木卻看不到整個森林。此外,你會發(fā)現(xiàn),在完成下一個步驟以后,你可能會想要修改或更換圖表類型。

第3步-確定最能提供信息指標

假設(shè)我們有另一個關(guān)于某研究機構(gòu)出版物數(shù)量的數(shù)據(jù)庫(見表 2 )??梢暬^程中最關(guān)鍵的步驟是充分了解數(shù)據(jù)庫以及每個變量的含義。從表格中可以看出,在 A 領(lǐng)域(Subject A),此機構(gòu)出版了 633 篇文章,占此機構(gòu)全部文章的 39% ;相同時間內(nèi)全球此領(lǐng)域共出版了 27738 篇文章,占全球總量的 44% 。 注意,B 列中的百分比累計超過 100% ,因為有些文章被標記為屬于多個領(lǐng)域。

在這個例子中,我們想了解此機構(gòu)在各個領(lǐng)域發(fā)表了多少文章。出版數(shù)量是一個有用的指標,不僅如此,與下面這些指標對照會呈現(xiàn)出更多信息:

  • 此領(lǐng)域的研究成果總量( B 列)
  • 此領(lǐng)域的全球活躍程度

由此,我們可以確定一個相對活躍指標,1.0 代表全球平均活躍程度。高于 1.0 代表高于全球水平,低于 1.0 代表低于全球水平。用 B 列的數(shù)據(jù)除以 D 列,得到這個新的指標,見表 2 。

數(shù)據(jù)庫

表2-用B列的數(shù)據(jù)除以D列,得到新的指標:相對活躍程度(E欄)。

第4步-選擇正確的圖表類型

現(xiàn)在我們可以用雷達圖來比較相對活躍指數(shù),并著重觀察指數(shù)最高/最低的研究領(lǐng)域。例如,此機構(gòu)在 G 領(lǐng)域的相對活躍指數(shù)最高( 1.8 ),但是,此領(lǐng)域的全球總量遠遠小于其他領(lǐng)域(見圖 3 )。雷達圖的另一個局限是,它暗示各軸之間存在關(guān)系,而在本案例中這關(guān)系并不存在(各領(lǐng)域并不相互關(guān)聯(lián))。

雷達圖

圖3-相對活躍指數(shù)雷達圖

數(shù)據(jù)的規(guī)范化(如本例中的相對活躍指數(shù))是一個很常見也很有效的數(shù)據(jù)轉(zhuǎn)換方法,但需要基于幫助讀者得出正確結(jié)論的目的使用。如在此例中,僅僅發(fā)現(xiàn)目標機構(gòu)對某個小領(lǐng)域非常重視沒太大意義。

我們可以把出版量和活躍程度在同一個圖表中展示,以理解各領(lǐng)域的活躍程度。使用圖 4 的玫瑰圖,各塊的面積表示文章數(shù)量,半徑長短表示相對活躍指數(shù)。注意在此例中,半徑軸是二次的(而圖 3 中是典型線性的)。圖中可以看出,B 領(lǐng)域十分突出,擁有最大的數(shù)量(由面積表示)和最高的相對活躍程度(由半徑長度表示)。

玫瑰圖

圖4-玫瑰圖。此圖中各塊面積表示文章數(shù)量,半徑長短表示相對活躍指數(shù)(E列)。

第5步-將注意力引向關(guān)鍵信息

用肉眼衡量半徑長度可能并不容易。由于在本例中,相對活躍指數(shù)的 1.0 代表此領(lǐng)域的全球活躍程度,我們可以通過給出 1.0 的參照值來引導讀者,見圖 5 。這樣很容易看出哪些領(lǐng)域的半徑超出參考線。

活躍指數(shù)的玫瑰圖

圖5-帶有相對活躍指數(shù)參考線的玫瑰圖

我們還可以使用顏色幫助讀者識別出版物最多的領(lǐng)域。如圖例所示,一塊的顏色深淺由出版物數(shù)量決定。為了便于識別,我們還可以把各領(lǐng)域名稱作為標簽(見圖 6 )。

顏色差異的玫瑰圖

圖6-玫瑰圖中的顏色深淺代表出版物數(shù)量(顏色越亮,出版物越多)

結(jié)論

數(shù)據(jù)可視化的方法有很多。新的工具和圖表類型不斷出現(xiàn),每種都試圖創(chuàng)造出比之前更有吸引力、更有利于傳播信息的圖表。我們的建議是記住以下原則:可視化項目應(yīng)該去總結(jié)關(guān)鍵信息并使之更清晰直白,而不應(yīng)該令人困惑,或用大量的信息讓讀者的大腦超載。

 

原作者:Georgin Lau and Lei Pan

翻譯:王鵬宇

via:Datartisan數(shù)據(jù)工匠

原文地址:http://www.36dsj.com/archives/39986

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!