離線數(shù)據(jù)單表集成設(shè)計詳解
數(shù)據(jù)集成平臺可以將外部數(shù)據(jù)源的數(shù)據(jù)同步存儲,進行統(tǒng)一管理,其中,按照集成數(shù)據(jù)的有效性,又可以分為實時數(shù)據(jù)同步和離線數(shù)據(jù)同步。這篇文章里,作者就對離線數(shù)據(jù)集成進行了設(shè)計拆解,一起來看看吧,或許會對你有所幫助。
數(shù)據(jù)集成平臺是“數(shù)據(jù)工廠”的首站,用于將外部數(shù)據(jù)源的數(shù)據(jù)(元數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù))同步至統(tǒng)一存儲中心,進行統(tǒng)一納管,解決數(shù)據(jù)分散問題。按照集成表規(guī)模分為單表同步、整庫同步,按集成數(shù)據(jù)時效性分為離線數(shù)據(jù)同步、實時數(shù)據(jù)同步。
本文主要對離線批量數(shù)據(jù)單表同步進行總結(jié),離線數(shù)據(jù)通道通過定義源端和目標端數(shù)據(jù)源、數(shù)據(jù)表,利用數(shù)據(jù)抽取插件、數(shù)據(jù)轉(zhuǎn)換插件、數(shù)據(jù)寫入插件,實現(xiàn)任意結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)源之間數(shù)據(jù)傳輸。
一、數(shù)據(jù)源管理
對源端數(shù)據(jù)源和目標端數(shù)據(jù)源連接屬性的配置管理。
不同項目對數(shù)據(jù)源的需求不同,所以在做數(shù)據(jù)源管理設(shè)計時要松耦合,數(shù)據(jù)源類型可擴展,參數(shù)配置動態(tài)取值。
1. 創(chuàng)建數(shù)據(jù)源
不同類型的數(shù)據(jù)源,配置參數(shù)也不相同,以MySQL為例,介紹創(chuàng)建數(shù)據(jù)源頁面。
- 數(shù)據(jù)源名稱:根據(jù)連接的數(shù)據(jù)源類型,用戶可自定義便于記憶、區(qū)分的名稱。
- 數(shù)據(jù)源編碼:用戶可自定義編碼,用于數(shù)據(jù)源唯一區(qū)分。
- 連接類型:數(shù)據(jù)源類型,例如GAUSS、GREENPLUM、KUDU、MYSQL、SFTP等。選擇類型后,配置參數(shù)動態(tài)取值顯示。
- 服務(wù)器地址:要連接的數(shù)據(jù)庫的IP地址或域名。
- 端口號:要連接的數(shù)據(jù)庫的端口。
- 數(shù)據(jù)庫名稱:要連接的數(shù)據(jù)庫名稱。
- 用戶名:用戶賬號。該數(shù)據(jù)庫用戶需要有數(shù)據(jù)表的讀寫權(quán)限,以及對元數(shù)據(jù)的讀取權(quán)限。
- 密碼:用戶名密碼。
2. 集成平臺對已創(chuàng)建的數(shù)據(jù)源有以下操作
- 刪除:對已經(jīng)維護的數(shù)據(jù)源進行刪除操作,不能刪除已被使用的數(shù)據(jù)源。
- 編輯:對已經(jīng)維護的數(shù)據(jù)源進行修改操作。不能修改連接類型,可修改連接參數(shù)。修改連接時,需要重新輸入數(shù)據(jù)源的登錄密碼。
- 測試連接:測試連接的連通性。
- 查看詳情:展示當前數(shù)據(jù)源的配置信息。
二、集成任務(wù)管理
數(shù)據(jù)集成平臺架構(gòu)分上下兩層,上層為命令層,通過制定集成任務(wù),控制下層的執(zhí)行。命令層會告知執(zhí)行層數(shù)據(jù)從哪里來,到哪里去,怎樣去,何時去,執(zhí)行層負責完成這些指令。
1. 生命周期管理
生命周期管理是對命令層任務(wù)從創(chuàng)建到刪除的全生命周期活動的管理,包括創(chuàng)建任務(wù)、修改任務(wù)、生效任務(wù)、運行任實例、失效任務(wù)和刪除任務(wù)。
通過生效狀態(tài)和實例運行狀態(tài)標記任務(wù)生命周期階段:
- 未生效:創(chuàng)建任務(wù)后的默認狀態(tài),或失效成功后狀態(tài),此狀態(tài)下可以編輯、刪除任務(wù)。
- 已生效:生效任務(wù)后的狀態(tài),生效后的任務(wù)可以運行實例。
- 運行中:運行/恢復(fù)實例成功后實例狀態(tài);此狀態(tài)實例可以停止,停止失敗依然為運行中。
- 運行失?。哼\行實例失敗后實例狀態(tài)。
- 運行停止:已停止的實例狀態(tài),可以恢復(fù)。
- 運行結(jié)束:采集數(shù)據(jù)完畢后狀態(tài)。
2. 創(chuàng)建集成任務(wù)
用戶通過填寫基本信息,配置源端、目標端庫表,確定全量/增量同步,配置字段映射和配置任務(wù)執(zhí)行參數(shù)六個步驟,在頁面創(chuàng)建數(shù)據(jù)集成任務(wù)。
選擇數(shù)據(jù)來源和數(shù)據(jù)去向后,需要指定讀取端和寫入端列的映射關(guān)系,配置字段映射關(guān)系后,任務(wù)將根據(jù)字段映射關(guān)系,將源端字段寫入目標端對應(yīng)類型的字段中。源端表和目標表會按照字段編碼自動映射,也可手動更改映射。源端和目標端的字段操作有:
① 源端數(shù)據(jù)清洗轉(zhuǎn)換:點擊色湖之按鈕,使用源端數(shù)據(jù)庫支持的函數(shù),對字段進行函數(shù)處理。
② 為目標字段賦值:通過添加一行的方式,為目標表添加常量、變量。
第三步參數(shù)設(shè)置是對定時、增量字段、同步并發(fā)、流量控制和臟數(shù)據(jù)控制的設(shè)置。
3. 集成平臺對已創(chuàng)建的集成任務(wù)有以下操作
- 刪除:對已經(jīng)維護的集成任務(wù)進行刪除操作,只能刪除未生效的任務(wù)。
- 編輯:對已經(jīng)維護的集成任務(wù)進行修改操作。不能修改源端和目標端數(shù)據(jù)源。
- 查看詳情:展示當前集成任務(wù)的配置信息。
- 生效/失效任務(wù):對任務(wù)生效狀態(tài)的變更。
- 運行任務(wù)實例:手動運行或定時周期運行任務(wù)實例。
- 停止/恢復(fù)運行:停止運行中的任務(wù),恢復(fù)已停止的實例。
- 查看歷史任務(wù):查看該任務(wù)的歷史執(zhí)行記錄、作業(yè)執(zhí)行的日志信息。
三、集成任務(wù)運維監(jiān)控
此模塊主要查看離線同步任務(wù)實例運行情況、監(jiān)控任務(wù)運行狀態(tài)和任務(wù)運行日志等,從任務(wù)運行統(tǒng)計分析詳數(shù)據(jù)和詳細數(shù)據(jù)2個方面展示。
- 統(tǒng)計分析數(shù)據(jù)通過可視化圖表展示同步任務(wù)數(shù)、同步數(shù)據(jù)量、同步記錄數(shù)、任務(wù)運行狀態(tài)分布、周期實例及任務(wù)趨勢等運維監(jiān)控指標。
- 任務(wù)實例詳情點擊可視化圖表,可以進入詳細數(shù)據(jù)展示區(qū)域,可通過開始運行時間、結(jié)束運行時間、任務(wù)狀態(tài)和任務(wù)名稱等條件篩選,快速搜索任務(wù)實例,查看該實例的執(zhí)行情況和錯誤日志。
在當今數(shù)字化時代,企業(yè)面臨著海量的數(shù)據(jù)和分散的信息孤島,數(shù)據(jù)集成成為了解決這一挑戰(zhàn)的關(guān)鍵,將數(shù)據(jù)整合到一統(tǒng)一的數(shù)據(jù)存儲庫中,以實現(xiàn)數(shù)據(jù)的一致性、可訪問性和可用性,使企業(yè)能夠更好地利用數(shù)據(jù)進行分析、決策和業(yè)務(wù)創(chuàng)新。
由于不同來源、不同格式、不同結(jié)構(gòu)和數(shù)據(jù)范圍不同,導(dǎo)致數(shù)據(jù)集成面臨的情況多樣復(fù)雜,本文僅對離線數(shù)據(jù)集成進行描述,以后會逐步展開其他。
專欄作家
余田,人人都是產(chǎn)品經(jīng)理專欄作家,數(shù)據(jù)產(chǎn)品經(jīng)理,《用戶至上-用戶研究方法與實踐》譯者。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!