如何做數(shù)據(jù)標(biāo)準(zhǔn)化:哪類數(shù)據(jù)需要標(biāo)準(zhǔn)化處理
將一個(gè)東西標(biāo)準(zhǔn)化,可以提高生產(chǎn)效率,數(shù)據(jù)也是如此。但在開始化之前,我們需要先來(lái)看看,哪些數(shù)據(jù)需要進(jìn)行標(biāo)準(zhǔn)化處理,以及如何處理。
關(guān)于“數(shù)據(jù)標(biāo)準(zhǔn)化”,MBA智庫(kù)百科的解釋如下:
數(shù)據(jù)標(biāo)準(zhǔn)化是指研究、制定和推廣應(yīng)用統(tǒng)一的數(shù)據(jù)分類分級(jí)、記錄格式及轉(zhuǎn)換、編碼等技術(shù)標(biāo)準(zhǔn)的過程。
主要指的是數(shù)據(jù)治理中的數(shù)據(jù)標(biāo)準(zhǔn)化工作,包括數(shù)據(jù)交換、數(shù)據(jù)質(zhì)量和數(shù)據(jù)標(biāo)準(zhǔn)等一系列內(nèi)容,可稱之為“數(shù)據(jù)標(biāo)準(zhǔn)化體系建設(shè)”。在這個(gè)內(nèi)涵下,要做好數(shù)據(jù)標(biāo)準(zhǔn)化,需要做:
- 建立數(shù)據(jù)模型標(biāo)準(zhǔn)并落地標(biāo)準(zhǔn)化建模流程
- 建立數(shù)據(jù)編碼標(biāo)準(zhǔn)
- 系統(tǒng)集成標(biāo)準(zhǔn)化
但我們今天所說的,并不是這個(gè)“數(shù)據(jù)標(biāo)準(zhǔn)化”。而是“數(shù)據(jù)預(yù)處理(也稱?數(shù)據(jù)清洗)”中的一種數(shù)據(jù)處理手段。
在說“什么是數(shù)據(jù)標(biāo)準(zhǔn)化”之前,我們先來(lái)說說“為什么要做數(shù)據(jù)標(biāo)準(zhǔn)化”。
回想一下人類發(fā)展史,可以了解到,開啟工業(yè)化時(shí)代的必要條件之一是——零件標(biāo)準(zhǔn)化。
沒錯(cuò),只有當(dāng)工廠實(shí)現(xiàn)了“零件標(biāo)準(zhǔn)化”,才真正算是步入了工業(yè)化時(shí)代,生產(chǎn)效率得到了極大的提升。
為什么零件標(biāo)準(zhǔn)化能帶來(lái)這么大的增效呢?
因?yàn)橛辛怂?,工廠生產(chǎn)零件可以完全按照?qǐng)D紙規(guī)范來(lái),并且就算是不同廠家生產(chǎn)的零件,只要是按照?qǐng)D紙規(guī)范來(lái)的,都是可以通用的。此舉大大提高了零件的質(zhì)量和可用性,并且使得工廠之間的協(xié)同和合作變得尤為高效,零件再組裝成更大的可用商品也就更高效和保質(zhì)保量了。
對(duì)于數(shù)據(jù)來(lái)說,同樣地,實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化,能夠?yàn)檎麄€(gè)數(shù)據(jù)生產(chǎn)鏈條帶來(lái)效率的提升和質(zhì)量的保證。
數(shù)據(jù)標(biāo)準(zhǔn)化需要將數(shù)據(jù)對(duì)象按照我們后續(xù)處理的要求切成所需的形態(tài),我們要做的,就是定義這個(gè)“模具”并讓它開始工作。
在講到“如何做數(shù)據(jù)標(biāo)準(zhǔn)化”之前,我們需要先來(lái)看看,哪些數(shù)據(jù)需要進(jìn)行標(biāo)準(zhǔn)化處理。
一、量級(jí)不一數(shù)據(jù)
比如現(xiàn)在要分析門店銷售額和店均銷量對(duì)門店競(jìng)爭(zhēng)力的影響。在業(yè)務(wù)認(rèn)知上,此兩者的權(quán)重應(yīng)是相當(dāng)?shù)?。但?shù)值的量級(jí)卻是不一樣的。
試想一下,如果讓門店銷售額和店均銷量直接參與計(jì)算,會(huì)發(fā)生什么事?
門店銷售額的數(shù)值量級(jí)遠(yuǎn)大于店均銷量,必然就會(huì)導(dǎo)致店均銷量對(duì)結(jié)果的影響被拉得微乎其微,而這并不符合業(yè)務(wù)實(shí)際,也不符合我們想要的影響因子系數(shù)配比。
那么這時(shí)候,就需要對(duì)這類數(shù)據(jù)進(jìn)行“去量綱化”這種數(shù)據(jù)標(biāo)準(zhǔn)化的處理。
1. 去量綱化
那么“去量綱化”又怎么做呢?有哪些方法可以用?羅列如下。
min-max標(biāo)準(zhǔn)化
首先,我們需要確定一個(gè)原則,既然是“去量鋼化”,那么我們要做的就是:把所有參與計(jì)算的自變量的取值區(qū)間拉到同一個(gè)區(qū)間。
min-max標(biāo)準(zhǔn)化這個(gè)方法即是將這個(gè)統(tǒng)一取值區(qū)間定義為:[0,1]。不管原本多大量級(jí)的指標(biāo),都需要經(jīng)過處理后落在這個(gè)區(qū)間內(nèi)。
問題又來(lái)了,如何處理能達(dá)到這個(gè)效果呢?
這里有個(gè)公式:(X-min)/(max-min),所有數(shù)據(jù)經(jīng)過這個(gè)公式的運(yùn)算后都可以落在[0,1]區(qū)間上。屬于最簡(jiǎn)單的線性變換法。
z-score標(biāo)準(zhǔn)化
z-score標(biāo)準(zhǔn)化這個(gè)方法即是將這個(gè)統(tǒng)一取值區(qū)間定義為:圍繞0上下波動(dòng)。主要是基于均值判斷單個(gè)具體值是偏高還是偏低。
這里的公式是:(X-Mean)/Std。大于0說明高于平均水平,小于0說明低于平均水平。
歸一化
歸一化與“min-max標(biāo)準(zhǔn)化”類似,都是使處理后的數(shù)據(jù)落在[0,1]區(qū)間。
公式:X?/?(x1+x2+…Xn)。對(duì)正數(shù)進(jìn)行變換,將數(shù)值的絕對(duì)值變成相對(duì)值關(guān)系。
其他方法
其他的方法還有如中心化、均值化、區(qū)間化等都可以實(shí)現(xiàn)將數(shù)據(jù)處理到期望的確定范圍內(nèi)。
- 中心化:X-Mean(讓數(shù)據(jù)變成平均值為0的一組數(shù)據(jù))
- 均值化:X/Mean
- 區(qū)間化:a+(b-a)*(X-Min)/(Max-Min)【可將數(shù)據(jù)壓縮到區(qū)間[a,b]中】
二、指標(biāo)作用方向不一數(shù)據(jù)
比如現(xiàn)在要分析不同商品的優(yōu)劣,從而用于選品的決策。而評(píng)價(jià)商品的優(yōu)劣則需要從多維度來(lái)評(píng)估,涉及到若干個(gè)指標(biāo)。常見的,如動(dòng)銷和同質(zhì)化。在業(yè)務(wù)認(rèn)知上,代表動(dòng)銷的指標(biāo)動(dòng)銷率、銷量等,數(shù)值越高則商品表現(xiàn)越好;代表同質(zhì)化的同功效SKU數(shù),數(shù)值越低說明同質(zhì)化程度越低則商品表現(xiàn)(稀缺性優(yōu)勢(shì))越好。到這里,各位看官應(yīng)該可以看出來(lái),這兩種指標(biāo)的作用方向是不一樣的,即:一個(gè)是越高越好,另一個(gè)是越低越好。
那么,如果讓動(dòng)銷率和同功效SKU數(shù)直接參與計(jì)算,又會(huì)發(fā)生什么事?
商品評(píng)分隨動(dòng)銷率的增高而增高,這沒問題。但商品評(píng)分隨同功效SKU數(shù)的增高而增高就不合理了,同質(zhì)化程度的增加只能說明該商品的稀缺性和獨(dú)特競(jìng)爭(zhēng)優(yōu)勢(shì)走弱,商品評(píng)分應(yīng)該隨之降低才是符合業(yè)務(wù)實(shí)際的。
那么這時(shí)候,就需要對(duì)這類數(shù)據(jù)進(jìn)行“負(fù)向指標(biāo)正向化”這種數(shù)據(jù)標(biāo)準(zhǔn)化的處理。
1. 負(fù)向指標(biāo)正向化
對(duì)于“同功效SKU數(shù)”這類負(fù)向指標(biāo),我們的處理方式是,套入如下公式:
(max-X)/?(max-min)
經(jīng)過如此數(shù)據(jù)處理后,便可將負(fù)向指標(biāo)轉(zhuǎn)為正向指標(biāo),且結(jié)果將落在[0,1]區(qū)間內(nèi),從而實(shí)現(xiàn)了數(shù)據(jù)的標(biāo)準(zhǔn)化。
2. 中間型指標(biāo)處理
作為負(fù)向指標(biāo)正向化的變種,對(duì)于存在理想中間值的情況,可以采用如下方式:
公式:
作用:對(duì)中間型指標(biāo)數(shù)據(jù)的線性變換,使結(jié)果落到[0,1]區(qū)間。原數(shù)據(jù)等于理想值,處理結(jié)果為1;原數(shù)據(jù)越靠近理想值,處理結(jié)果值就越接近1。
3. 區(qū)間型指標(biāo)處理
除中間型指標(biāo)處理外,還存在另一變種——區(qū)間型指標(biāo)處理。公式如下:
在此方法里,[a,b]是假設(shè)的最佳區(qū)間。
作用:對(duì)區(qū)間型指標(biāo)數(shù)據(jù)的線性變換,使結(jié)果落到[0,1]區(qū)間。原數(shù)據(jù)若在理想?yún)^(qū)間內(nèi),處理結(jié)果為1;原數(shù)據(jù)越靠近理想?yún)^(qū)間范圍,處理結(jié)果值就越接近1。
對(duì)于這兩類“不夠標(biāo)準(zhǔn)化”的數(shù)據(jù),經(jīng)過以上兩種處理之后,則滿足了數(shù)據(jù)應(yīng)用的標(biāo)準(zhǔn),可以進(jìn)行下一步使用了。這便是“數(shù)據(jù)生產(chǎn)鏈”中“數(shù)據(jù)標(biāo)準(zhǔn)化”工作的意義與常見的方法。希望對(duì)各位理解數(shù)據(jù)工作的具體內(nèi)容有所幫助。
本文由 @maggieC 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒評(píng)論,等你發(fā)揮!