數(shù)據(jù)可視化如何實(shí)現(xiàn)?

13 評(píng)論 30908 瀏覽 211 收藏 11 分鐘

什么是大數(shù)據(jù)?什么又是數(shù)據(jù)可視化?我們應(yīng)該如何實(shí)現(xiàn)數(shù)據(jù)可視化?

2018年我在產(chǎn)品方面的分享遠(yuǎn)不如2017年,有頻繁跳槽造成積累有限的原因,有前段時(shí)間在分享中跟大家提到的心態(tài)方面的原因,最主要的原因是:自己在18年下半年接觸的產(chǎn)品涉及了比較底層的技術(shù)——大數(shù)據(jù)。以至于非技術(shù)出身的我,必須花大量的時(shí)間放在技術(shù)相關(guān)的學(xué)習(xí)上。

今天我就把接觸大數(shù)據(jù)產(chǎn)品后的心得體會(huì)分享給大家,這里首先要感謝濤哥、海哥、曉彤、谷哥等在日常工作中的耐心、無(wú)私指導(dǎo),希望本文能夠給初學(xué)者或者對(duì)大數(shù)據(jù)產(chǎn)品感興趣的同學(xué)帶來(lái)幫助!因掌握深度有限,本次分享若有錯(cuò)誤、疏漏之處,歡迎各位看客老爺隨時(shí)拍磚~

認(rèn)識(shí)大數(shù)據(jù)

大數(shù)據(jù),指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。

上面這段話是百度的官方解釋?zhuān)诔醮螌W(xué)習(xí)的時(shí)候我也是云里霧里,為什么會(huì)產(chǎn)生大數(shù)據(jù)?為什么要使用大數(shù)據(jù)呢?在這里我給大家再通俗的解釋一下:

起初,數(shù)據(jù)量很少的時(shí)代,通過(guò)表格工具、mysql等關(guān)系型數(shù)據(jù)庫(kù)(二維表數(shù)據(jù)庫(kù),數(shù)據(jù)逐行插入)就能夠解決數(shù)據(jù)存儲(chǔ)的問(wèn)題。

但是,隨著互聯(lián)網(wǎng)的飛速發(fā)展,產(chǎn)品以及用戶的激增,產(chǎn)生了海量的數(shù)據(jù)??紤]到長(zhǎng)足發(fā)展,公司會(huì)對(duì)產(chǎn)品、用戶相關(guān)的原生數(shù)據(jù)、埋點(diǎn)數(shù)據(jù)等進(jìn)行分析,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)就無(wú)法滿足需要,只能通過(guò)行式、分布式等數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)這些數(shù)據(jù)(HBASE、hive等,能夠?qū)崿F(xiàn)集群化,及分配到多臺(tái)主機(jī)上同時(shí)計(jì)算)。

認(rèn)識(shí)數(shù)據(jù)可視化

有了數(shù)據(jù)之后,對(duì)數(shù)據(jù)分析就是成了最關(guān)鍵的環(huán)節(jié),我公司的分析師就曾對(duì)我說(shuō)過(guò)一句話:數(shù)據(jù)分析主要對(duì)整體分析,而不執(zhí)著于特殊的個(gè)體數(shù)據(jù),這樣才能夠給產(chǎn)品提供宏觀、有效的參考價(jià)值。

海量的數(shù)據(jù)讓用戶通過(guò)逐條查看是不可行的,圖像化才是有效的解決途徑。少量的數(shù)據(jù)可以通過(guò)表格工具生成圖表、透視表的方式進(jìn)行分析,但是大數(shù)據(jù)的分析就需要借助專(zhuān)門(mén)的可視化工具了,常見(jiàn)的可視化工具包括:Tableau、BDP、Davinci、Quick BI、有數(shù)等。

大部分商用數(shù)據(jù)可視化工具的計(jì)算、圖表展示雖然比較強(qiáng)大,但是卻無(wú)法做到實(shí)時(shí)數(shù)據(jù)快速生成,數(shù)據(jù)也多為push(固定的范圍)的方式,有時(shí)候數(shù)據(jù)還需要二次加工滿足可視化產(chǎn)品的規(guī)則(商用產(chǎn)品多考慮通用性,無(wú)法適用于所有企業(yè)的數(shù)據(jù)規(guī)范)。

除此之外,現(xiàn)在很多圖表插件的開(kāi)源化(如:Echart、GoogleChart),以及行業(yè)內(nèi)對(duì)數(shù)據(jù)安全性等的考慮,越來(lái)越多的公司也開(kāi)始進(jìn)行數(shù)據(jù)可視化的私有化部署。

數(shù)據(jù)可視化的實(shí)現(xiàn)

數(shù)據(jù)可視化產(chǎn)品(系統(tǒng))的結(jié)構(gòu)框架主要分為三層:數(shù)據(jù)存儲(chǔ)層數(shù)據(jù)計(jì)算層、數(shù)據(jù)展示層

1. 數(shù)據(jù)存儲(chǔ)層

數(shù)據(jù)存儲(chǔ)層在開(kāi)頭已經(jīng)和大家說(shuō)過(guò)了,在數(shù)據(jù)可視化產(chǎn)品(系統(tǒng))中,既支持常規(guī)數(shù)據(jù)(MySQL、CSV等)可視化,也支持大數(shù)據(jù)(hive、HBASE等)的可視化,滿足日常分析人員定性、定量的分析。

在考慮到數(shù)據(jù)安全的因素,數(shù)據(jù)存儲(chǔ)還會(huì)與權(quán)限管理相結(jié)合,實(shí)現(xiàn)不同角色的人員只能訪問(wèn)指定的數(shù)據(jù)(未來(lái)有機(jī)會(huì)再分享)。

2. 數(shù)據(jù)計(jì)算層

這里的計(jì)算不是平時(shí)所說(shuō)的聚合、排序、分組等計(jì)算,解釋之前我們先了解一下數(shù)據(jù)分析的工作流程吧:

  • 產(chǎn)品/運(yùn)營(yíng)人員提出數(shù)據(jù)需求,如“APP一周留存 ”;
  • 分析師確認(rèn)需求后需要明確本次分析需要的字段及分析方式;
  • 數(shù)倉(cāng)人員提供整理后的表格(數(shù)據(jù)模型,多張表join后合成的中間表);
  • 分析師基于數(shù)據(jù)模型進(jìn)行可視化分析。

數(shù)倉(cāng)提供的數(shù)據(jù)模型主要分為增量、全量數(shù)據(jù),不能直接對(duì)某個(gè)較長(zhǎng)范圍的數(shù)據(jù)進(jìn)行分析,舉個(gè)例子1月1日、1月2日兩天都產(chǎn)生了數(shù)據(jù),增量、全量的數(shù)據(jù)存儲(chǔ)方式效果如下:

以上述舉例的“APP一周留存”,就需要每天計(jì)算一下隔日留存,才能夠基于每天的隔日留存計(jì)算出一周的留存。分析師每天會(huì)有很多任務(wù),大量的基礎(chǔ)計(jì)算(如每天的隔日留存)就可讓電腦自動(dòng)完成,這里就需要依賴調(diào)度功能(你可以理解成一個(gè)自動(dòng)運(yùn)行公式的工具)。

通過(guò)以上內(nèi)容,我們可以得到多表關(guān)聯(lián)、定時(shí)計(jì)算就是計(jì)算層的主要功能。

3. 數(shù)據(jù)展示層

數(shù)據(jù)展示層分為兩部分:

一部分是對(duì)看圖人的可視化,看圖人包括:產(chǎn)品、運(yùn)營(yíng)、高層主管等。根據(jù)需求方的要求,將數(shù)據(jù)用適合的圖表呈現(xiàn),比如,趨勢(shì)相關(guān)用折線圖、數(shù)據(jù)明細(xì)用表格、留存用漏斗圖……

另一部分是對(duì)作圖人的可視化,作圖人主要是分析師。讓分析師用可視化的操作,來(lái)代替盡可能多的SQL語(yǔ)句輸入。常見(jiàn)的可視化工具中,可以快捷得將數(shù)據(jù)模型中的字段拖拽到維度/度量(可理解為X、Y軸)中。

tableau圖表編輯面板

通過(guò)可視化產(chǎn)品(系統(tǒng))結(jié)構(gòu)學(xué)習(xí),我們不難看出,實(shí)現(xiàn)數(shù)據(jù)可視化的操作過(guò)程包括:數(shù)據(jù)連接(存儲(chǔ))、制作數(shù)據(jù)模型(計(jì)算)、制作圖表(展示)。這也是當(dāng)下常見(jiàn)數(shù)據(jù)可視化產(chǎn)品操作流程:

更好的數(shù)據(jù)可視化

我們數(shù)據(jù)可視化產(chǎn)品項(xiàng)目組在需求立項(xiàng)時(shí)有一句口號(hào):數(shù)據(jù)準(zhǔn)確、流暢高于一切!

這也是每次分析師完成可視化表格后,都會(huì)與需求人員進(jìn)行數(shù)據(jù)校對(duì)的原因。以免引發(fā)未來(lái)分析的誤判,給部門(mén)甚至公司帶來(lái)不必要的損失。

相信大家都有這樣的情形吧,你正在編輯某個(gè)文件時(shí),系統(tǒng)或軟件突然卡住,當(dāng)時(shí)的內(nèi)心是不是很抓狂呢?圖表加載、篩選后的響應(yīng)時(shí)間也是我們一直關(guān)注的問(wèn)題,這也是可視化產(chǎn)品用戶粘度的重要指標(biāo)之一。

隨著市場(chǎng)上可視化產(chǎn)品不斷增多,差異化的功能就可能會(huì)在殘酷的競(jìng)爭(zhēng)中幫助產(chǎn)品突出重圍:如Tableau的強(qiáng)大的圖表樣式編輯功能;Quick BI的分析報(bào)告功能(引用圖表生成報(bào)告);有數(shù)的大屏展示功能。

還有一些數(shù)據(jù)實(shí)時(shí)展示的功能也日益成為某些情境下的剛需,例如每年天貓雙十一都會(huì)有一個(gè)實(shí)時(shí)看板展示訂單達(dá)到了多少億。

結(jié)語(yǔ)

數(shù)據(jù)可視化產(chǎn)品又會(huì)朝著哪個(gè)方的發(fā)展呢?我們還在摸黑走過(guò)困難重重的道路,也在多次的試錯(cuò)中找到了一些方向。

產(chǎn)品之路道阻且長(zhǎng),至少,我們不是在單打獨(dú)斗……

#專(zhuān)欄作家#

兮兮,微信公眾號(hào):孤身旅人(ID:gushenlvren),人人都是產(chǎn)品經(jīng)理專(zhuān)欄作家。關(guān)注人工智能、toB產(chǎn)品、大文娛等領(lǐng)域。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議

專(zhuān)欄作家

兮兮,微信公眾號(hào):孤身旅人(ID:gushenlvren),人人都是產(chǎn)品經(jīng)理專(zhuān)欄作家。關(guān)注人工智能、toB產(chǎn)品、大文娛等領(lǐng)域。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 pexels,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 寫(xiě)的很好,期待看到更多關(guān)于數(shù)據(jù)可視化的文章分享!

    來(lái)自上海 回復(fù)
    1. 感謝認(rèn)可,后面有沉淀了會(huì)及時(shí)整理分享

      來(lái)自上海 回復(fù)
    2. 好的,期待~

      來(lái)自上海 回復(fù)
  2. 你好,能加個(gè)微信么?

    回復(fù)
    1. 暫時(shí)還不熟悉,微信暫時(shí)就不加了,你可以先關(guān)注一下我的微信公眾號(hào):孤身旅人(ID:gushenlvren),可以在里面給我留言,感謝理解~

      來(lái)自上海 回復(fù)
  3. 數(shù)據(jù)模型的最終交付物就是N張表通過(guò)sql,join的表?

    來(lái)自上海 回復(fù)
    1. 當(dāng)然不是,還需要運(yùn)用到調(diào)度系統(tǒng)等操作(文章提到的有:定時(shí)計(jì)算)。但是為了讓初學(xué)者或者對(duì)大數(shù)據(jù)產(chǎn)品感興趣的同學(xué)盡快了解,以及筆者能力有限,就不給出復(fù)雜的技術(shù)細(xì)節(jié)說(shuō)明了。

      來(lái)自上海 回復(fù)
  4. 文章寫(xiě)得很好!感謝分享
    有個(gè)地方想跟您探討一下:
    在數(shù)據(jù)計(jì)算層,“數(shù)倉(cāng)人員提供整理后的表格”,數(shù)據(jù)都是自有數(shù)據(jù)嗎?若是需要有外部數(shù)據(jù)(不規(guī)范數(shù)據(jù))的加入,將采用怎樣的方法進(jìn)行數(shù)據(jù)治理了?

    來(lái)自重慶 回復(fù)
    1. 這個(gè)就是數(shù)倉(cāng)他們做的事了,我們公司的數(shù)倉(cāng)的工作職責(zé)就是把冗雜的、不規(guī)范、特殊數(shù)據(jù)(無(wú)效、空、錯(cuò)誤數(shù)據(jù)等)清洗整理一遍,這個(gè)詳細(xì)的過(guò)程目前也不了解,你這邊有什么好的方式呢?

      來(lái)自上海 回復(fù)
  5. 多謝,多寫(xiě)一些可視化的文章

    來(lái)自浙江 回復(fù)
    1. 感謝認(rèn)可!也是剛剛接觸大數(shù)據(jù)產(chǎn)品,后面有沉淀了會(huì)及時(shí)整理分享~

      來(lái)自上海 回復(fù)
  6. 我只聽(tīng)過(guò)PowerBI但沒(méi)用過(guò),求指點(diǎn)一二。

    回復(fù)
    1. 你說(shuō)的應(yīng)該是微軟的產(chǎn)品,我體驗(yàn)過(guò),整體的流程也是連接數(shù)據(jù)源→制作數(shù)據(jù)模型→制作圖表,你可以先從網(wǎng)易有數(shù)開(kāi)始體驗(yàn)一下,還有BDP個(gè)人版,網(wǎng)易云課堂上有網(wǎng)易有數(shù)的公開(kāi)課,可以學(xué)習(xí)。之后如果有資源可以體驗(yàn)一下tableau,僅供參考~

      來(lái)自上海 回復(fù)