每日優(yōu)鮮如何搭建數(shù)據(jù)倉庫?
編輯導讀:生鮮配送已經不是一件新鮮事,只要在手機上下單就能享受到送貨到家的服務。這背后不僅要依靠強大的物流,還需要搭建數(shù)據(jù)倉庫,以便決策。本文將以每日優(yōu)鮮為例,分析它是如何搭建數(shù)據(jù)倉庫的,與你分享。
一、為什么要做數(shù)據(jù)倉庫&數(shù)據(jù)倉庫的結構
1. 市場
國內生鮮銷售渠道中農貿市場占73%,而超市渠道滲透率僅為22%,相比與發(fā)達國家70%以上的水平,仍有較大差距。
隨著新零售的風口刮到了社區(qū)生鮮領域,社區(qū)生鮮近年來仍密集開店,一是行業(yè)巨頭降維打擊,布局“社區(qū)生鮮”市場,二是生鮮傳奇、錢大媽之類的小品牌井噴式爆發(fā)。
PEST分析:
國家政策:
國家大力發(fā)展在線農產品交易,對農產品超市進行補貼。并于2017年出臺的《商務部 中國農業(yè)發(fā)展銀行關于共同推進農產品和農村市場體系建設的通知》,其中主要支持方向為:
- 農產品市場及倉儲物流設施建設。支持新建、改造各類農產品批發(fā)市場、綜合加工配送中心、產地集配中心,完善預選分級、包裝、倉儲、物流等設施。
- 公益性農產品市場體系建設。支持公益性農產品批發(fā)市場建設公共加工配送中心、公共信息服務平臺、檢驗檢測中心、消防安全監(jiān)控中心、廢棄物處理設施等公益性流通基礎設施。支持建設公益性菜市場、平價菜店等公益性農產品零售網點。
- 農產品冷鏈物流體系建設。支持建設、改造標準化冷庫和冷鏈物流集散中心,提高農產品產地預冷、低溫加工、冷鏈倉儲配送能力。推動封閉式交接貨通道、月臺、貨架等設施標準化改造,加快綠色環(huán)保冷藏冷凍設施設備與技術應用。
因此為在線生鮮的發(fā)展打開了政策渠道。
經濟發(fā)展:
我國今年來經濟快速發(fā)展,經濟發(fā)展帶動了人民的消費欲望,在線生鮮電商打開了網上生鮮買賣的渠道。
社會現(xiàn)狀:
目前人們的消費水品提高,人們越來越關注農產品的安全問題,因此人們很多希望能夠直接從農產品生產地直接拿貨,既保證了食品安全,又對價格滿意;并且隨著人們網上購物的習慣養(yǎng)成和物流運輸水平的發(fā)展,人們網上采購生鮮類產品的意愿也在加強。
技術現(xiàn)狀:
隨著AI大數(shù)據(jù)以及物聯(lián)網等新技術的誕生,保質期短的生鮮產品能夠在特定的時間及時送到用戶手中,并對用戶反饋的數(shù)據(jù)進行追蹤,既提高了用戶的滿意度,同時也能夠保證食品的安全和新鮮。
綜上所述,生鮮網上發(fā)展正處于快速成長期,市場份額將越來越大。
二、每日優(yōu)鮮產品概況
每日優(yōu)鮮成立于2014年,2018年已完成水果、蔬菜、乳品、零食、酒飲、肉蛋、水產、熟食、輕食、速食、糧油、日百等全品類精選生鮮布局,因此SKU非常豐富,作為配送類產品,每日產生巨大的數(shù)據(jù)量。
每日優(yōu)鮮能夠做了更多精準的觸達。媒體環(huán)境變得越來越精準了,這要求我們作為一個零售商或者廣告主,也會在算法上越來越精準。因此我們猜測每日優(yōu)鮮具有自己的OLTP。
伴隨著新零售到來的步伐以及社區(qū)團購迎來的新風口,電商巨頭們亦紛紛布局生鮮電商。阿里有盒馬鮮生,京東有7Fresh,蘇寧有蘇鮮生,步步高有鮮食演義,同一賽道角逐的還有美團的小象生鮮、易果生鮮、天天果園、大潤發(fā)優(yōu)鮮等,生鮮電商的搶灘戰(zhàn)未來將更加激烈。
因此,根據(jù)以上產品分析,每日優(yōu)鮮需要搭建自己的數(shù)據(jù)倉庫,用于公司決策,精細化運營。
三、數(shù)據(jù)倉庫的結構
1. 事實與維度
每日優(yōu)鮮維度分析:
數(shù)據(jù)集市矩陣表:
2. 數(shù)據(jù)倉庫數(shù)據(jù)源
數(shù)據(jù)源分為三種:
- 結構化數(shù)據(jù):一般是業(yè)務數(shù)據(jù)庫或日志數(shù)據(jù)庫中直接產生的數(shù)據(jù),存于關系數(shù)據(jù)庫中,常用的數(shù)據(jù)庫有,MYSQL,ORCAL,SQL SERVER,POSTGRESQL等數(shù)據(jù)庫中,主要以表的形式呈現(xiàn)。
- 半結構化數(shù)據(jù):一般我們會將半結構化的數(shù)據(jù)經過XML轉化存于CLOB中,即存在XML的節(jié)點中,因此可以對數(shù)據(jù)進行有效擴展,半結構化數(shù)據(jù)一般后期會存入結構化數(shù)據(jù)庫中進行調用。
- 非結構化數(shù)據(jù):一般是圖片,文字,語言類型通常會使用到NLP,圖像處理,語音識別等技術手段進行處理之后存在nosql數(shù)據(jù)庫中,常用的有mongo DB 和HBASE或者基于內存運算的列式存儲Redis數(shù)據(jù)庫,將數(shù)據(jù)存在數(shù)據(jù)庫的節(jié)點中,優(yōu)點在于能夠有效擴展。
3. 數(shù)據(jù)倉庫的物理生產環(huán)境和ETL
在服務器集群規(guī)模選擇上如下分析(舉例):
- 日活100w,每人平均產生100條日志,那么每天總日志可以是100w*100=1億條;
- 每條日志一般情況5~2k,按照1k進行計算,約需要100萬存儲空間;
- 如果服務器半年內不盡興擴容,那么需要的空間就是100萬*180天約為18T;
- 保存3套數(shù)據(jù)副本,為54T;
- 一般情況下還要預留20%~30%的空間,那么需要77T;
- 按照一個磁盤10T的容量,那么我們就可以得出需要10個硬盤的服務器。
數(shù)據(jù)倉庫的物理生產環(huán)境一般是在LINUX平臺下運行,因為大數(shù)據(jù)生態(tài)體系下的編譯好的很多并包都是在LINUX系統(tǒng)中進行編譯,因此從技術開發(fā)層次在LINUX下開發(fā)。
一般服務器可以部署Apache開源的服務,當然在選擇框架的過程中需要考慮企業(yè)數(shù)據(jù)的規(guī)模,一般情況下大企業(yè)使用Apache框架,而對于中小企業(yè)可以選擇CDH框架??梢允褂檬褂肕ysql或其他類型的數(shù)據(jù)庫(根據(jù)需求)。使用PHP或者Python、JavaScript進行寫入。
ETL可選擇Informatica、Beeload、Kettle(開源,有數(shù)據(jù)安全風險)。
在進行服務器集群管理時,可選擇軟件Claudira Manager(只支持CDH框架下軟件安裝)簡化框架安裝和集群管理。
4. 半結構化數(shù)據(jù)的預處理
通常會使用XML或JOSN進行半結構化數(shù)據(jù)的處理存儲。
5. 物理化實現(xiàn)數(shù)據(jù)庫物理表
這一步就是設計數(shù)據(jù)庫的表結構,依據(jù)上一部中的分析維度和事實情況進行數(shù)據(jù)庫表的設計。常用的維度建模模型有星型模型(結構清晰)和星座模型。根據(jù)維度模型建立數(shù)據(jù)倉庫表。
6. ETL
數(shù)據(jù)倉庫設計完成,再對數(shù)據(jù)庫中的數(shù)據(jù)進行抽取轉換加載步驟。進行數(shù)據(jù)處理。將數(shù)據(jù)在各個框架中傳遞。
7. 加載事實表和維度表
對已經制作完成的表結構加載,得出我們希望看到的數(shù)據(jù)的事實表。
8. OLAP分析
將數(shù)據(jù)倉庫中的數(shù)據(jù)通過報表的形式和dashboard形式呈現(xiàn)出來。在此常用的工具有:
選擇的依據(jù)可以遵循兩個方面:
1)按照超大數(shù)據(jù)的查詢效率
Druid & Kylin & Presto & Spark SQL
2)從能夠處理的數(shù)據(jù)源多少的種類(從多到少)
Presto & Spark SQL & Kylin& Druid
數(shù)據(jù)可視化的工具一般可選用:echarts,superset,QuickBI,DataV。后兩種可視化工具為阿里提供的付費工具。
四、總結
數(shù)據(jù)倉庫的搭建是企業(yè)對數(shù)據(jù)的充分重視,搭建的過程可以是高層主導直接全域搭建或者由業(yè)務主題開始搭建數(shù)據(jù)集市,然后匯總成數(shù)據(jù)倉庫。
優(yōu)點:數(shù)據(jù)倉庫使企業(yè)數(shù)據(jù)集成,向上能夠幫助高層決策,向下能夠滿足運營、財務、采購、物流等業(yè)務部門需求;隨著企業(yè)數(shù)據(jù)量的增大,為后續(xù)數(shù)據(jù)湖和數(shù)據(jù)平臺的搭建提供底層支撐,對企業(yè)數(shù)據(jù)進行數(shù)據(jù)資產化和數(shù)據(jù)管理,進一步能夠指導企業(yè)的業(yè)務線發(fā)展。
缺點:數(shù)據(jù)倉庫幫助企業(yè)數(shù)字集成的同時,隨著企業(yè)發(fā)展壯大,缺少對數(shù)據(jù)的運維,如何能夠更好服務企業(yè)發(fā)展,各部門協(xié)作,是下面需要考慮的問題。
后期,數(shù)據(jù)倉庫為更好的為企業(yè)節(jié)省成本,需要搭建數(shù)據(jù)平臺,集成業(yè)務中臺和技術中臺。
由于本人知識結構尚待優(yōu)化,有不足之處,請多多指正。感謝。
作者:汪仔2296,QQ:1083368735
本文由@汪仔2296 原創(chuàng)發(fā)布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash, 基于CC0協(xié)議
辛苦了
哪里辛苦,哈哈
講的太粗了,
100萬存儲空間具體是怎么計算的呢?
需要10個硬盤的服務器,是怎么計算的?
太籠統(tǒng)
??隔壁啊
啥意思
之前我在每日優(yōu)鮮隔壁公司