国产a视频,国产福利在线永久视频,国产大陆精品久久3

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

干貨推薦｜數(shù)據(jù)可視化的五個步驟

白桃汽水不加冰

2016-01-15

0 評論 18098 瀏覽 163 收藏

12 分鐘

數(shù)據(jù)被稱作是最新的商業(yè)原材料「21世紀的石油」。商業(yè)領(lǐng)域、研究領(lǐng)域、技術(shù)發(fā)展領(lǐng)域使用的數(shù)據(jù)總量非常巨大，并持續(xù)增長。就Elsevier而言，每年從ScienceDirect下載的文章有7億篇，Scopus上的機構(gòu)檔案有8萬個、研究人員檔案有 1 千 3 百萬，Mendeley上的研究人員檔案有 3 百萬。對于用戶來說，從這個數(shù)據(jù)海洋中抓到關(guān)鍵信息越來越難。

許多先進的可視化方式(如：網(wǎng)絡(luò)圖、3D 建模、堆疊地圖)被用于特定用途，例如 3D 醫(yī)療影像、模擬城市交通、救災監(jiān)督。但無論一個可視化項目有多復雜，可視化的目的是幫助讀者識別所分析的數(shù)據(jù)中的一種模式或趨勢，而不是僅僅給他們提供冗長的描述，諸如：“ 2000 年 A 的利潤比 B 高出 2.9 % ，盡管 2001 年 A 的利潤增長了 25 % ，但 2001 年利潤比 B 低 3.5 % ”。出色的可視化項目應(yīng)該總結(jié)信息，并把信息組織起來，讓讀者的注意力集中于關(guān)鍵點。

對于 Elsevier’s Analytical Services 的項目而言，我們一直在尋找提升數(shù)據(jù)分析和可視化的方式。例如，在我們對于研究表現(xiàn)的分析中有大量關(guān)于研究合作的數(shù)據(jù);我們?yōu)?Science Europe 提供的報告(Comparative Benchmarking of European and US Research Collaboration and Researcher Mobility) 包含跨州合作以及國際合作的數(shù)據(jù)，這些數(shù)據(jù)不適合直接用二維表和X-Y圖展示。

為了探索數(shù)據(jù)背后的故事，我們使用了網(wǎng)絡(luò)關(guān)系圖來識別國家間的合作，并了解每個合作關(guān)系的影響。

本文提供一份包含五個步驟的數(shù)據(jù)可視化指南，為想用表格、圖形來傳播觀察結(jié)果、解讀分析結(jié)果的人士提供幫助。要記住，建立好的可視化項目是一個反復迭代的過程。

第1步-明確問題

開始創(chuàng)建一個可視化項目時，第一步是明確要回答的問題，又或者試著回答下面的問題“這個可視化項目會怎樣幫助讀者?”

3條數(shù)據(jù)記錄

表 1–數(shù)據(jù)集中的三條記錄

較差的直方圖

圖1-槽糕的可視化項目并不澄清事實，而是引人困惑。此圖中包含太多變量

清晰的問題可以有助于避免數(shù)據(jù)可視化的一個常見毛病：把不相干的事物放在一起比較。假設(shè)我們有這樣一個數(shù)據(jù)集(見表 1 )，其中包含一個機構(gòu)的作者總數(shù)、出版物總數(shù)、引用總數(shù)和它們特定一年的增長率。

圖1是一個糟糕的可視化案例，所有的變量都被包含在一張表格中。在同一張圖中繪制出不同類型的多個變量，通常不是個好主意。

注意力分散的讀者會被誘導著去比較不相干的變量。

比如，觀察出所有機構(gòu)的作者總數(shù)都少于出版物總數(shù)，這沒有任何意義，又或者發(fā)現(xiàn) Athena University、Bravo University、Delta Institution 三個研究機構(gòu)的出版物總數(shù)依次增長，也沒有意義。擁擠的圖表難以閱讀、難以處理。在有多個 Y 軸時就是如此，哪個變量對應(yīng)哪個軸通常不清晰。簡而言之，槽糕的可視化項目并不澄清事實而是引人困惑。

第2步-從基本的可視化著手

確定可視化項目的目標后，下一步是建立一個基本的圖形。它可能是餅圖、線圖、流程圖、散點圖、表面圖、地圖、網(wǎng)絡(luò)圖等等，取決于手頭的數(shù)據(jù)是什么樣子。在明確圖表該傳達的核心信息時，需要明確以下幾件事：

我們試圖繪制什么變量?
X 軸和軸代表什么?
數(shù)據(jù)點的大小有什么含義嗎?
顏色有什么含義嗎?
我們試圖確定與時間有關(guān)趨勢，還是變量之間的關(guān)系?

有些人使用不同類型的圖表實現(xiàn)相同目標，但并不推薦這樣做。不同類型的數(shù)據(jù)各自有其最適合的圖表類型。

比如，線形圖最適合表現(xiàn)與時間有關(guān)的趨勢，亦或是兩個變量的潛在關(guān)系。當數(shù)據(jù)集中的數(shù)據(jù)點過多時，使用散點圖進行可視化會比較容易。

此外，直方圖展示數(shù)據(jù)的分布。直方圖的形狀可能會根據(jù)不同組距改變，見圖 2 。(在繪制直方圖時，本質(zhì)是在繪制柱狀圖來展示特定范圍內(nèi)有多少數(shù)據(jù)點。這個范圍叫做組距。)

直方圖

圖2-當組距變化，直方圖的形狀也發(fā)生變化。

組距太窄會導致起伏過多，讓讀者只盯著樹木卻看不到整個森林。此外，你會發(fā)現(xiàn)，在完成下一個步驟以后，你可能會想要修改或更換圖表類型。

第3步-確定最能提供信息指標

假設(shè)我們有另一個關(guān)于某研究機構(gòu)出版物數(shù)量的數(shù)據(jù)庫(見表 2 )?？梢暬^程中最關(guān)鍵的步驟是充分了解數(shù)據(jù)庫以及每個變量的含義。從表格中可以看出，在 A 領(lǐng)域(Subject A)，此機構(gòu)出版了 633 篇文章，占此機構(gòu)全部文章的 39% ;相同時間內(nèi)全球此領(lǐng)域共出版了 27738 篇文章，占全球總量的 44% 。注意，B 列中的百分比累計超過 100% ，因為有些文章被標記為屬于多個領(lǐng)域。

在這個例子中，我們想了解此機構(gòu)在各個領(lǐng)域發(fā)表了多少文章。出版數(shù)量是一個有用的指標，不僅如此，與下面這些指標對照會呈現(xiàn)出更多信息：

此領(lǐng)域的研究成果總量( B 列)
此領(lǐng)域的全球活躍程度

由此，我們可以確定一個相對活躍指標，1.0 代表全球平均活躍程度。高于 1.0 代表高于全球水平，低于 1.0 代表低于全球水平。用 B 列的數(shù)據(jù)除以 D 列，得到這個新的指標，見表 2 。

數(shù)據(jù)庫

表2-用B列的數(shù)據(jù)除以D列，得到新的指標：相對活躍程度(E欄)。

第4步-選擇正確的圖表類型

現(xiàn)在我們可以用雷達圖來比較相對活躍指數(shù)，并著重觀察指數(shù)最高/最低的研究領(lǐng)域。例如，此機構(gòu)在 G 領(lǐng)域的相對活躍指數(shù)最高( 1.8 )，但是，此領(lǐng)域的全球總量遠遠小于其他領(lǐng)域(見圖 3 )。雷達圖的另一個局限是，它暗示各軸之間存在關(guān)系，而在本案例中這關(guān)系并不存在(各領(lǐng)域并不相互關(guān)聯(lián))。

雷達圖

圖3-相對活躍指數(shù)雷達圖

數(shù)據(jù)的規(guī)范化(如本例中的相對活躍指數(shù))是一個很常見也很有效的數(shù)據(jù)轉(zhuǎn)換方法，但需要基于幫助讀者得出正確結(jié)論的目的使用。如在此例中，僅僅發(fā)現(xiàn)目標機構(gòu)對某個小領(lǐng)域非常重視沒太大意義。

我們可以把出版量和活躍程度在同一個圖表中展示，以理解各領(lǐng)域的活躍程度。使用圖 4 的玫瑰圖，各塊的面積表示文章數(shù)量，半徑長短表示相對活躍指數(shù)。注意在此例中，半徑軸是二次的(而圖 3 中是典型線性的)。圖中可以看出，B 領(lǐng)域十分突出，擁有最大的數(shù)量(由面積表示)和最高的相對活躍程度(由半徑長度表示)。

玫瑰圖

圖4-玫瑰圖。此圖中各塊面積表示文章數(shù)量，半徑長短表示相對活躍指數(shù)(E列)。

第5步-將注意力引向關(guān)鍵信息

用肉眼衡量半徑長度可能并不容易。由于在本例中，相對活躍指數(shù)的 1.0 代表此領(lǐng)域的全球活躍程度，我們可以通過給出 1.0 的參照值來引導讀者，見圖 5 。這樣很容易看出哪些領(lǐng)域的半徑超出參考線。

活躍指數(shù)的玫瑰圖

圖5-帶有相對活躍指數(shù)參考線的玫瑰圖

我們還可以使用顏色幫助讀者識別出版物最多的領(lǐng)域。如圖例所示，一塊的顏色深淺由出版物數(shù)量決定。為了便于識別，我們還可以把各領(lǐng)域名稱作為標簽(見圖 6 )。

顏色差異的玫瑰圖

圖6-玫瑰圖中的顏色深淺代表出版物數(shù)量(顏色越亮，出版物越多)

結(jié)論

數(shù)據(jù)可視化的方法有很多。新的工具和圖表類型不斷出現(xiàn)，每種都試圖創(chuàng)造出比之前更有吸引力、更有利于傳播信息的圖表。我們的建議是記住以下原則：可視化項目應(yīng)該去總結(jié)關(guān)鍵信息并使之更清晰直白，而不應(yīng)該令人困惑，或用大量的信息讓讀者的大腦超載。

原作者：Georgin Lau and Lei Pan

翻譯：王鵬宇

via:Datartisan數(shù)據(jù)工匠

原文地址：http://www.36dsj.com/archives/39986

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App