數(shù)據(jù)倉庫學(xué)習(xí)筆記:修煉數(shù)據(jù)產(chǎn)品經(jīng)理

14 評論 21197 瀏覽 165 收藏 10 分鐘

好的數(shù)據(jù)倉庫的建立能夠適應(yīng)業(yè)務(wù)的多變,并且能夠為企業(yè)提供堅實的數(shù)據(jù)基礎(chǔ)以輔助業(yè)務(wù)決策。

隨著企業(yè)業(yè)務(wù)的發(fā)展,企業(yè)自身的業(yè)務(wù)系統(tǒng)及其中所存儲的數(shù)據(jù)會變的越來越多,同時業(yè)務(wù)及運營人員對于日常的指標(biāo)及數(shù)據(jù)分析需求也會越來越明顯。

這時為了企業(yè)能夠擁有更好的數(shù)據(jù)基礎(chǔ)來支撐常規(guī)的BI系統(tǒng)以便輔助業(yè)務(wù)決策,一些企業(yè)會選擇建立企業(yè)級的數(shù)據(jù)倉儲系統(tǒng)對公司全部或部分的數(shù)據(jù)進行統(tǒng)一存儲及管理。

一、數(shù)據(jù)倉庫系統(tǒng)與操作型系統(tǒng)的區(qū)別

傳統(tǒng)操作性系統(tǒng)更注重對實際業(yè)務(wù)的處理(如電商交易系統(tǒng)),一般采用傳統(tǒng)關(guān)系型數(shù)據(jù)庫對數(shù)據(jù)進行存儲(如mysql)。數(shù)據(jù)倉庫系統(tǒng)更偏向于復(fù)雜的分析操作,側(cè)重決策支持,一般采用多維數(shù)據(jù)庫對數(shù)據(jù)進行存儲和管理,又稱OLAP(聯(lián)機分析處理)。

二、數(shù)據(jù)倉庫的特點

1、數(shù)據(jù)倉庫是面向主題的

操作型數(shù)據(jù)庫的數(shù)據(jù)組織是面向獨立事務(wù)的處理任務(wù),各個業(yè)務(wù)系統(tǒng)之間是分隔獨立的。而數(shù)據(jù)倉庫的數(shù)據(jù)是面向主題的,通過一個個主題域?qū)⒍鄠€業(yè)務(wù)系統(tǒng)的數(shù)據(jù)加載到一起。

2、數(shù)據(jù)倉庫是集成的

數(shù)據(jù)倉庫系統(tǒng)需要將多處的數(shù)據(jù)源通過一定的規(guī)則進行抽取和清洗,并最終加載到數(shù)據(jù)倉庫中。過程中必須消除數(shù)據(jù)的不一致性。

3、數(shù)據(jù)倉庫的數(shù)據(jù)是相對穩(wěn)定的

操作型數(shù)據(jù)庫事實上并不過于注重歷史數(shù)據(jù),但數(shù)據(jù)倉庫的數(shù)據(jù)是為企業(yè)數(shù)據(jù)分析而建立,所以數(shù)據(jù)被加載后一般情況下將被長期保留。

4、數(shù)據(jù)倉庫更注重讀

數(shù)據(jù)倉庫中的數(shù)據(jù)一般僅執(zhí)行查詢操作,很少會有刪除和更新。需定期加載和刷新數(shù)據(jù)。

5、持續(xù)的項目

數(shù)據(jù)倉庫并不會像一個獨立項目一樣的由始至終完結(jié),它從開始建立起就需要不斷的維護。很多企業(yè)會選擇先面向某個主題建立數(shù)據(jù)集市,在通過一個個數(shù)據(jù)集市組成完整的數(shù)據(jù)倉庫。

三、數(shù)據(jù)倉庫的多維數(shù)據(jù)建模

對于現(xiàn)實世界中的某個事務(wù)其實完全可以抽象成維度和事實。

例如“小明今天在商場吃了一頓飯”

維度可抽象為:“時間維 => 今天” ,“地點維=>商場”,“產(chǎn)品維 => 飯” ,“用戶維 => 小明”。

事實量度:一頓

實際粒度:天、商業(yè)綜合體

數(shù)據(jù)倉庫的建模方法有很多,當(dāng)前所知較為主流的建模方式有兩種,分別為kimball和immon。前者更敏捷,是站在業(yè)務(wù)分析者的角度以最快的方式滿足分析者的分析需求。后者更系統(tǒng),是站在公司的角度在面向各個主題進行建模,并滿足第三范式。

不過現(xiàn)在更多采用的是前者,并且在學(xué)習(xí)數(shù)據(jù)倉庫的這本書也是同樣推薦使用Kimball進行建模。因為相對于目前互聯(lián)網(wǎng)公司的唯快不破,Immon的周期會拉的很長,同時需要建模人員全面了解公司的業(yè)務(wù)場景。

kimball建模開始維度建模前需先要了解業(yè)務(wù)場景并挖掘業(yè)務(wù)需求,同時考慮自身數(shù)據(jù)源的實際情況。

4步驟維度設(shè)計過程

1、選擇業(yè)務(wù)過程

該階段需要建模人員深入到實際業(yè)務(wù)流程當(dāng)中,從中建立性能度量,并轉(zhuǎn)化為事實表中的事實。一旦事實表被建立,則對應(yīng)的粒度及維度也會相對定義。所以這一步驟還是比較重要的。

2、聲明粒度

粒度聲明是維度設(shè)計的重要步驟,通常選用最低級別的原子粒度,因為原子粒度能夠承受無法預(yù)期的用戶查詢。

3、確認(rèn)維度

因為維度可以描述事實的屬性,維度表有時會被稱為數(shù)據(jù)倉庫的靈魂。它是數(shù)據(jù)倉庫系統(tǒng)能夠被用作業(yè)務(wù)分析的入口和描述性標(biāo)識。

4、確認(rèn)事實

事實表為實際業(yè)務(wù)過程中的度量,大部分以數(shù)值表示。一個事實表對應(yīng)一個現(xiàn)實中的某項事務(wù)。

kimball的三種建模模式

1、星型模型

星型模型是面向主題的常用模式,主要由一個事實表及多個維表構(gòu)成,不存在二級維表。

2、雪花模型

雪花模型是在星型模型基礎(chǔ)上將維表再次擴展,好處是耦合性低,冗余小。缺點是需要跨多表查詢時性能低。

3、星座模型

星座模型其時是星型模型的集合,存在多個事實表且可共用同一個維表。

一般在面向數(shù)據(jù)集市主題建模的時候會采用星型模型,如果是企業(yè)級數(shù)據(jù)倉庫的建立則采用星座模式較多。數(shù)據(jù)建模的的根本目的是避免冗余,盡可能提升查詢性能,建模方式?jīng)]有最好只有最優(yōu)。

kimball結(jié)構(gòu)圖

四、ETL數(shù)據(jù)處理

ETL的工作將貫穿于整個數(shù)據(jù)倉庫的建立過程。ETL是對數(shù)據(jù)的抽取、轉(zhuǎn)換、加載的簡稱。它是指將關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)抽取出來,并將不同數(shù)據(jù)源的數(shù)據(jù)按規(guī)則進行轉(zhuǎn)化和整合,最終加載到數(shù)據(jù)倉庫中。

在這一系列的操作中將會對元數(shù)據(jù)的數(shù)據(jù)格式,拼寫錯誤,多余字段等進行處理,使數(shù)據(jù)達(dá)到允許加載到數(shù)據(jù)倉庫的標(biāo)準(zhǔn)。

五、數(shù)據(jù)倉庫與BI系統(tǒng)

當(dāng)我們的數(shù)據(jù)倉庫通過以上的流程建立好之后,則在應(yīng)用層一般會選擇采購或自建BI系統(tǒng)。一般的BI系統(tǒng)均會支持對數(shù)據(jù)立方進行上卷、下鉆、切片、切塊等操作,強大的BI系統(tǒng)會同時具有基礎(chǔ)的ETL及SQL編寫的功能。另外簡潔的操作流程和直觀的圖形報表也是BI系統(tǒng)必不可少的。

數(shù)據(jù)立方

在日常分析者對數(shù)據(jù)進行透視等分析操作時,往往需要同時多維度的數(shù)據(jù)分析。數(shù)據(jù)立方實際上就是對于多維數(shù)據(jù)分析的一種立體表達(dá)。將每個維度作為一個立方體的一個軸,一個立方體最多只能承載三個維度,但實際分析過程中可能有多個維。然后我們可以對數(shù)據(jù)立方進行上卷、下鉆、切片、切塊、旋轉(zhuǎn)等操作。

切片、切塊

上卷、下鉆操作

大數(shù)據(jù)的應(yīng)用越來越廣泛,無論是AI還是傳統(tǒng)的BI都需要數(shù)據(jù)的支撐。好的數(shù)據(jù)倉庫的建立能夠適應(yīng)業(yè)務(wù)的多變,并且能夠為企業(yè)提供堅實的數(shù)據(jù)基礎(chǔ)以輔助業(yè)務(wù)決策。以上為近期個人對數(shù)據(jù)倉庫及建模相關(guān)技術(shù)的學(xué)習(xí)和理解,若存在理解錯的地方還望大神們指正。

感謝瀏覽!

 

本文由 @宗瀚zone 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Pixabay,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 大家期待已久的《數(shù)據(jù)產(chǎn)品經(jīng)理實戰(zhàn)訓(xùn)練營》終于在起點學(xué)院(人人都是產(chǎn)品經(jīng)理旗下教育機構(gòu))上線啦!

    本課程非常適合新手?jǐn)?shù)據(jù)產(chǎn)品經(jīng)理,或者想要轉(zhuǎn)崗的產(chǎn)品經(jīng)理、數(shù)據(jù)分析師、研發(fā)、產(chǎn)品運營等人群。

    課程會從基礎(chǔ)概念,到核心技能,再通過典型數(shù)據(jù)分析平臺的實戰(zhàn),幫助大家構(gòu)建完整的知識體系,掌握數(shù)據(jù)產(chǎn)品經(jīng)理的基本功。

    學(xué)完后你會掌握怎么建指標(biāo)體系、指標(biāo)字典,如何設(shè)計數(shù)據(jù)埋點、保證數(shù)據(jù)質(zhì)量,規(guī)劃大數(shù)據(jù)分析平臺等實際工作技能~

    現(xiàn)在就添加空空老師(微信id:anne012520),咨詢課程詳情并領(lǐng)取福利優(yōu)惠吧!

    來自廣東 回復(fù)
  2. 怎么一年沒寫文章了

    回復(fù)
  3. 請問下產(chǎn)品經(jīng)理在數(shù)倉搭建中的角色是什么,主要的工作是什么,因為感覺大部分都是工程師的活呀

    來自廣東 回復(fù)
    1. 了解工作原理

      回復(fù)
    2. 怎么一年沒寫文章了?

      回復(fù)
  4. 學(xué)習(xí)了,但是這里kimball的結(jié)構(gòu)感覺表述的不夠清晰,自己又去找了下inmom和kimball的比對文章,感覺https://segmentfault.com/a/1190000006255954這里的比對圖感覺會更好一些

    來自湖北 回復(fù)
  5. 受教了!感謝大神!

    來自江蘇 回復(fù)
  6. 文中的immon是不是錯了,inmon?

    來自福建 回復(fù)
  7. 什么階段的企業(yè)適合做數(shù)據(jù)倉庫 ??

    來自福建 回復(fù)
    1. 個人感覺主要看上游的數(shù)據(jù)應(yīng)用情況。

      來自浙江 回復(fù)
  8. 博主,你提到的書,書名是什么呢?
    “在學(xué)習(xí)數(shù)據(jù)倉庫的這本書也是同樣推薦使用Kimball進行建模。”

    來自四川 回復(fù)
    1. 叫《數(shù)據(jù)倉庫工具箱》

      來自浙江 回復(fù)
  9. 環(huán)球黑卡聽起來很牛逼

    回復(fù)
    1. ??

      來自浙江 回復(fù)