談?wù)劽枋鲂苑治鏊季S
編輯導(dǎo)語:描述性分析思維的建立有助于幫助我們樹立數(shù)據(jù)分析思維,具體而言,描述性分析思維有哪些思維維度和常見的數(shù)據(jù)指標(biāo)?又該如何應(yīng)用?本篇文章里,作者就描述性分析思維談了談他的見解和思路,不妨來看一下。
一、前言
之前梳理了“數(shù)據(jù)思維”概念、培養(yǎng)鍛煉以及應(yīng)用的一些相關(guān)的內(nèi)容,現(xiàn)在我們將開始梳理一些做數(shù)據(jù)分析需要具備哪些常見的、實(shí)用的、具體的數(shù)據(jù)分析思維,如描述性分析思維、二八和帕累托思維、PEST分析思維、生命周期分析思維、競(jìng)品分析思維、結(jié)構(gòu)化分析思維等。
本文將從數(shù)據(jù)分析入門級(jí)思維——描述性分析思維開始梳理,從而幫助大家樹立數(shù)據(jù)分析思維的意識(shí)。
在做數(shù)據(jù)分析之前,我們首先要認(rèn)識(shí)了解數(shù)據(jù),將會(huì)收集一系列復(fù)雜的數(shù)據(jù)信息,對(duì)相關(guān)的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)整理。
在這種情況下,僅單靠讓人“看”數(shù)據(jù),會(huì)讓人一臉茫然失措的。就像有些人不懂得如何更好地展示分析結(jié)果和數(shù)據(jù)來印證自己的分析,如一個(gè)人滿腹經(jīng)綸卻不知該如何一展雄才。
想讓人了解數(shù)據(jù)的大致情況、印證自己的分析時(shí),利用描述性分析思維,就能讓我們了解到數(shù)據(jù)信息的整體概況,還能讓我們觀察到數(shù)據(jù)的特征和異常問題等。
描述性分析思維,即對(duì)調(diào)查總體所有變量的有關(guān)數(shù)據(jù)做統(tǒng)計(jì)性描述,主要包括數(shù)據(jù)的頻數(shù)分析、集中趨勢(shì)分析、離散程度分析、分布和一些基本的可視化統(tǒng)計(jì)圖形以及清晰的文字描述。
二、描述性分析思維有哪些指標(biāo)?
所謂指標(biāo)是幫助我們打開思路,通過多個(gè)指標(biāo)對(duì)數(shù)據(jù)進(jìn)行深度解讀,不能僅僅靠著對(duì)數(shù)據(jù)的一種感覺和敏感來進(jìn)行數(shù)據(jù)分析,這樣的主觀性太強(qiáng)。因此,我們來看一下描述性分析思維有哪些指標(biāo)?
常用的描述性統(tǒng)計(jì)分析指標(biāo)有:平均值、四分位數(shù)、方差、標(biāo)準(zhǔn)差、中位數(shù)、眾數(shù)等。通過這些指標(biāo)的計(jì)算和圖形視覺化展示,讓我們發(fā)現(xiàn)原來這些數(shù)據(jù)是這樣的情況!
1. 平均值
平均值顧名思義就是計(jì)算數(shù)據(jù)的平均數(shù)是多少,可以讓我們了解到數(shù)據(jù)的平均水平是多少。
公式:平均值μ=(數(shù)值X1+X2+X3……)/N(多少項(xiàng),數(shù)值的數(shù)量)
- 優(yōu)點(diǎn):計(jì)算簡(jiǎn)單,可讓人了解到平均水平如何。
- 缺點(diǎn):當(dāng)數(shù)據(jù)值差距很大的時(shí)候,呈現(xiàn)的平均水平結(jié)果就可能會(huì)出現(xiàn)不客觀的現(xiàn)象,出現(xiàn)平均數(shù)陷阱,讓人誤解。例如,我們總覺得自己的收入水平拉低了城市人均工資的水平線。
2. 眾數(shù)
眾數(shù)(Mode):統(tǒng)計(jì)分布上具有明顯集中趨勢(shì)點(diǎn)的數(shù)值,代表數(shù)據(jù)的一般水平(眾數(shù)可以不存在或多于一個(gè))。
3. 中位數(shù)
中位數(shù)描述數(shù)據(jù)中心位置的數(shù)字特征。大體上比中位數(shù)大或小的數(shù)據(jù)個(gè)數(shù)為整個(gè)數(shù)據(jù)的一半。對(duì)于對(duì)稱分布的數(shù)據(jù),均值與中位數(shù)比較接近;對(duì)于偏態(tài)分布的數(shù)據(jù),均值與中位數(shù)不同。中位數(shù)的又一顯著特點(diǎn)是不受異常值得影響,具有穩(wěn)健性,因此它是數(shù)據(jù)分析中相當(dāng)重要的統(tǒng)計(jì)量。
4. 方差、標(biāo)準(zhǔn)差、標(biāo)準(zhǔn)分
方差:樣本中各數(shù)據(jù)與樣本平均數(shù)的差的平方和的平均數(shù)叫做樣本方差;樣本方差的算術(shù)平方根叫做樣本標(biāo)準(zhǔn)差。樣本方差和樣本標(biāo)準(zhǔn)差都是衡量一個(gè)樣本波動(dòng)大小的量,樣本方差或樣本標(biāo)準(zhǔn)差越大,樣本數(shù)據(jù)的波動(dòng)就越大。
標(biāo)準(zhǔn)分也叫z分?jǐn)?shù),是一種具有相等單位的量數(shù)。它是將原始分?jǐn)?shù)與團(tuán)體的平均數(shù)之差除以標(biāo)準(zhǔn)差所得的商數(shù),是以標(biāo)準(zhǔn)差為單位度量原始分?jǐn)?shù)離開其平均數(shù)的分?jǐn)?shù)之上多少個(gè)標(biāo)準(zhǔn)差,或是在平均數(shù)之下多少個(gè)標(biāo)準(zhǔn)差。它是一個(gè)抽象值,不受原始測(cè)量單位的影響,并可接受進(jìn)一步的統(tǒng)計(jì)處理。
用公式表示為:z=(x-μ)/σ;其中z為標(biāo)準(zhǔn)分?jǐn)?shù);x為某一具體分?jǐn)?shù),μ為平均數(shù),σ為標(biāo)準(zhǔn)差。
標(biāo)準(zhǔn)分表示【某個(gè)數(shù)值】距離平均值多少個(gè)標(biāo)準(zhǔn)差。在質(zhì)量管理中,我們常常聽到6西格瑪管理就是標(biāo)準(zhǔn)分的典型應(yīng)用。這個(gè)標(biāo)準(zhǔn)差,通常用每百萬次采樣數(shù)的缺陷率來衡量。
1個(gè)標(biāo)準(zhǔn)差,就是每萬件抽樣中,有69萬個(gè)不合格,相當(dāng)于一本書每頁有170個(gè)錯(cuò)別字。3個(gè)標(biāo)準(zhǔn)差就是每百萬件抽樣中,有6.7萬個(gè)不合格,相當(dāng)于一本書每頁有1.5個(gè)錯(cuò)字。6個(gè)標(biāo)準(zhǔn)差就是每百萬件抽樣中,有3.4個(gè)不合格,相當(dāng)于整個(gè)小型圖書館的所有藏書中,只有1個(gè)錯(cuò)別字。
5.?四分位數(shù)
四分位數(shù)是指在把所有數(shù)值由小到大排列并分成四等份,處于三個(gè)分割點(diǎn)位置的數(shù)值,分割后我們會(huì)通過5個(gè)數(shù)值來描述數(shù)據(jù)的整體分布情況。
- 下界:最小值,即第0%位置的數(shù)值;
- 下四分位數(shù):Q1,即第25%位置的數(shù)值;
- 中位數(shù):Q2,即第50%位置的數(shù)值;
- 上四分位數(shù):Q3,即第75%位置的數(shù)值;
- 上界:最大值,即第100%位置的數(shù)值。
- 優(yōu)點(diǎn):可以用來對(duì)比不同類別數(shù)據(jù)的整體情況,還可以識(shí)別出可能的異常值。
- 缺點(diǎn):無法反映數(shù)據(jù)的波動(dòng)大小。
6. 極差
極差=最大值-最小值,是描述數(shù)據(jù)分散程度的量,極差描述了數(shù)據(jù)的范圍,但無法描述其分布狀態(tài)。且對(duì)異常值敏感,異常值的出現(xiàn)使得數(shù)據(jù)集的極差有很強(qiáng)的誤導(dǎo)性。
7. 偏度
偏度用來評(píng)估一組數(shù)據(jù)的分布呈先的對(duì)稱程度,即以正態(tài)分布為標(biāo)準(zhǔn)描述數(shù)據(jù)對(duì)稱性的指標(biāo)。
8. 峰度
峰度用來評(píng)估一組數(shù)據(jù)的分布形狀的高低程度,即描述正態(tài)分布中曲線峰頂尖哨程度的指標(biāo)。然而:
- 均值、中位數(shù)、眾數(shù)體現(xiàn)了數(shù)據(jù)的集中趨勢(shì)。
- 極差、方差、標(biāo)準(zhǔn)差體現(xiàn)了數(shù)據(jù)的離散程度。
- 偏度、峰度體現(xiàn)了數(shù)據(jù)的分布形狀。
以上是常用的描述性分析的指標(biāo),還有一些其他的指標(biāo),如絕對(duì)數(shù)、相對(duì)數(shù):倍數(shù)、成數(shù)、百分?jǐn)?shù)等,這里就不一一介紹了。
三、描述性分析思維維度有哪些?
其實(shí),在日常的數(shù)據(jù)分析中我們經(jīng)常使用一些特征值,尤其是我們做周報(bào)或者月報(bào)的分析時(shí),這些描述性的統(tǒng)計(jì)分析特征值對(duì)于我們有一定的幫助,描述性統(tǒng)計(jì)分析是進(jìn)行正確的統(tǒng)計(jì)推斷的先決條件??赏ㄟ^數(shù)據(jù)的集中趨勢(shì)、離散程度、分布類型和特點(diǎn)等維度進(jìn)行初步分析。
1. 集中趨勢(shì)的描述性統(tǒng)計(jì)
- 均值:描述一組數(shù)據(jù)的平均水平,是集中趨勢(shì)中波動(dòng)最小、最可靠的指標(biāo),但是均值容易受到極端值(極小值或極大值)的影響。
- 中位數(shù):最適合的表征集中趨勢(shì)的指標(biāo)。
- 眾數(shù):常用于描述定性數(shù)據(jù)的集中趨勢(shì),不受極端值的影響。
2. 離散程度的描述性統(tǒng)計(jì)
- 最大值和最小值:是一組數(shù)據(jù)中的最大觀測(cè)值和最小觀測(cè)值。
- 極差:一般情況下,極差越大,離散程度越大,其值容易受到極端值的影響。
- 方差和標(biāo)準(zhǔn)差:是描述一組數(shù)據(jù)離散程度的最常用、最適用的指標(biāo),值越大,表明數(shù)據(jù)的離散程度越大。
3. 分布形態(tài)的描述性統(tǒng)計(jì)
- 偏度:當(dāng)偏度=0時(shí),分布是對(duì)稱的;當(dāng)偏度>0時(shí),分布呈正偏態(tài);當(dāng)偏度<0時(shí),分布呈負(fù)偏態(tài)。
- 峰度:當(dāng)峰度=0時(shí),分布和正態(tài)分布基本一直;當(dāng)峰度>0時(shí),分布形態(tài)高狹;當(dāng)峰度<0時(shí),分布形態(tài)低闊。
4. 頻率統(tǒng)計(jì)分析
- 頻數(shù)分布分析(又稱頻率分析)主要通過頻數(shù)分布表、條形圖和直方圖、百分位值等來描述數(shù)據(jù)的分布特征。
- 在做頻數(shù)分布分析時(shí),通常按照定性數(shù)據(jù)(即分類的類別),統(tǒng)計(jì)各個(gè)分類的頻數(shù),計(jì)算各個(gè)分類所占的百分比,進(jìn)而得到頻率分布表,最后根據(jù)頻率分布表來繪制頻率分布圖。
5. 按照時(shí)間遞增的趨勢(shì)統(tǒng)計(jì)
特殊情況下,當(dāng)X軸是日期數(shù)據(jù),Y軸是統(tǒng)計(jì)量(比如均值、總數(shù)量)時(shí),可以繪制出統(tǒng)計(jì)量按照時(shí)間遞增的趨勢(shì)圖,從圖中可以看到統(tǒng)計(jì)量按照時(shí)間增加的趨勢(shì)(無變化、遞增或遞減)和周期性。
例如,下圖的X軸是日期,Y軸的統(tǒng)計(jì)量是總數(shù)量,兩條折線分別是新增企業(yè)數(shù)和新增用戶數(shù)據(jù)
四、描述性分析思維運(yùn)用基本思路?
那么,接下來,我們來梳理一下描述性分析思維運(yùn)用的基本思路?
首先,要描述目前的數(shù)據(jù)表現(xiàn)的現(xiàn)狀是什么,根據(jù)分析目的,提取指標(biāo)數(shù)據(jù)的具體數(shù)值:如數(shù)量、平均數(shù)、極差、標(biāo)準(zhǔn)差、方差、極值。
其次,描述分布規(guī)律:如均勻分布、正態(tài)分布、集中趨勢(shì)、長(zhǎng)尾分布。
然后,根據(jù)以往的數(shù)據(jù)的或者是之前制定的標(biāo)準(zhǔn),制定參考標(biāo)準(zhǔn)。
最后,綜合現(xiàn)狀和標(biāo)準(zhǔn),輸出有價(jià)值的結(jié)論,并進(jìn)行可視化:如柱狀圖、條形圖、散點(diǎn)圖、餅狀圖。
只有業(yè)務(wù)概況+數(shù)據(jù)指標(biāo)+標(biāo)準(zhǔn)(可視化)才能得出一個(gè)“是什么”的結(jié)論。
業(yè)務(wù)概況+數(shù)據(jù)指標(biāo)+標(biāo)準(zhǔn)(可視化)=結(jié)論的分析流程,非常簡(jiǎn)單,不過標(biāo)準(zhǔn)如何去制定?那又是需要我們深思的問題了。
例如,一個(gè)門店購買商品的數(shù)量的平均值是多少?四分位數(shù)是多少?標(biāo)準(zhǔn)差是多少?標(biāo)準(zhǔn)分是多少??jī)蓚€(gè)數(shù)據(jù)的變異系數(shù)是多少?
一個(gè)門店銷量每日增長(zhǎng)趨勢(shì)怎么樣?客單價(jià)的分布如何?成什么分布?門店總銷量是多少?哪個(gè)商品賣得最好?細(xì)分的品類中賣的最好的是什么?
例如面包中,是有奶油面包的好,還是無脂面包=賣的好?什么時(shí)間用戶購買最集中,一天中哪個(gè)時(shí)間段購買最集中,賣得最好?
五、總結(jié)
描述性分析思維,即解決業(yè)務(wù)現(xiàn)狀“是什么”的問題,這是最基礎(chǔ)的、最直觀簡(jiǎn)潔的數(shù)據(jù)思維。但是由于簡(jiǎn)單,對(duì)多元變量的關(guān)系難以描述?,F(xiàn)實(shí)生活中,自變量通常是多元的:決定體重不僅有身高,還有飲食習(xí)慣,肥胖基因等等因素。
但可以通過一些高級(jí)的數(shù)據(jù)處理手段,對(duì)多元變量進(jìn)行處理,例如特征工程中,可以使用互信息方法來選擇多個(gè)對(duì)因變量有較強(qiáng)相關(guān)性的自變量作為特征,還可以使用主成分分析法來消除一些冗余的自變量來降低運(yùn)算復(fù)雜度。
在之后我們會(huì)提到拆解思維、對(duì)比思維等數(shù)據(jù)分析思維中都會(huì)涉及。總之,以后運(yùn)用數(shù)據(jù)分析思維做得多了,做數(shù)據(jù)分析輸出的成果就更嚴(yán)謹(jǐn),有依據(jù),有說服力,不在停留“取數(shù)”階段了。
#專欄作家#
木兮擎天@,微信公眾號(hào):木木自由,人人都是產(chǎn)品經(jīng)理專欄作家。多年互聯(lián)網(wǎng)數(shù)據(jù)運(yùn)營經(jīng)驗(yàn),涉獵運(yùn)營領(lǐng)域較廣,關(guān)注于運(yùn)營、數(shù)據(jù)分析的實(shí)戰(zhàn)案例與經(jīng)驗(yàn)以及方法論的總結(jié),探索運(yùn)營與數(shù)據(jù)的神奇奧秘!
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
作者對(duì)描述性分析思維這個(gè)方面分析的還是很全面專業(yè)的~很贊~