數(shù)據(jù)分析(2):數(shù)據(jù)分析的方法論
本文大概梳理了統(tǒng)計(jì)數(shù)據(jù)分析的三種方法論,即描述性數(shù)據(jù)分析、數(shù)理統(tǒng)計(jì)分析和數(shù)據(jù)挖掘分析。enjoy~
我們說(shuō)數(shù)據(jù)分析要有目的進(jìn)行分析,實(shí)際上我們?cè)谄匠5墓ぷ髦?,沒(méi)有學(xué)過(guò)數(shù)據(jù)分析也能靠直覺(jué)推斷出一些數(shù)據(jù)產(chǎn)生的原因。那么為什么還要進(jìn)行數(shù)據(jù)分析的學(xué)習(xí)呢?也就是說(shuō),數(shù)據(jù)分析,到底在學(xué)什么?
其實(shí)我認(rèn)為如果是在初創(chuàng)團(tuán)隊(duì)中,確實(shí)無(wú)需使用太專(zhuān)業(yè)的數(shù)據(jù)分析方法,因?yàn)橥鶖?shù)據(jù)不足。但是,如果你掌握了數(shù)據(jù)分析的方法,就能夠在產(chǎn)品的初期設(shè)計(jì)合理的埋點(diǎn),要知道現(xiàn)在很多產(chǎn)品在早期是沒(méi)有這個(gè)意識(shí)的,于是等產(chǎn)品成熟了再去做這件事是極其痛苦的。所以也才催生了類(lèi)如諸葛IO這樣的“無(wú)埋點(diǎn)”數(shù)據(jù)分析的產(chǎn)品。“無(wú)埋點(diǎn)”只能收集到很淺層次的數(shù)據(jù),如點(diǎn)擊數(shù)據(jù),IP/PV等,業(yè)務(wù)層面就無(wú)法統(tǒng)計(jì)。而且存在著不穩(wěn)定性,從技術(shù)上講就是說(shuō)如果用戶使用了一些奇奇怪怪的瀏覽器(例如低版本的IE)的話,很可能無(wú)埋點(diǎn)的代碼就無(wú)法運(yùn)行,造成原始數(shù)據(jù)的偏差。說(shuō)了這么多,回到話題,學(xué)習(xí)數(shù)據(jù)分析,我們能夠:
- 培養(yǎng)數(shù)據(jù)意識(shí),提升產(chǎn)品規(guī)劃能力。
- 培養(yǎng)數(shù)據(jù)敏感性,提高洞察力。
- 能夠數(shù)據(jù)中發(fā)現(xiàn)不容易通過(guò)直覺(jué)發(fā)現(xiàn)的足絲馬跡,發(fā)現(xiàn)潛在的可能。
- 掌握一門(mén)通用的硬技能,輔助需求挖掘、業(yè)務(wù)分析。
- 等等
接下來(lái)我們進(jìn)入正題:數(shù)據(jù)分析的方法論。
一般來(lái)說(shuō)數(shù)據(jù)分析可以從兩個(gè)學(xué)科出發(fā),一個(gè)是數(shù)理統(tǒng)計(jì)學(xué),另一個(gè)是營(yíng)銷(xiāo)理論。本文將主要從數(shù)理統(tǒng)計(jì)學(xué)著手介紹,因?yàn)闋I(yíng)銷(xiāo)理論(就是我們常見(jiàn)的5w2h,PEST分析等等方法論)的掌握,更多是思維框架的掌握,而真正能夠通曉營(yíng)銷(xiāo)理論的,需要大量的經(jīng)驗(yàn)積累。而數(shù)理統(tǒng)計(jì)學(xué)是工具,可以手到擒來(lái),馬上就用的。
上篇文章講到,數(shù)據(jù)分析大致可以分為描述性分析、診斷性分析、預(yù)測(cè)性分析,同樣的數(shù)據(jù)分析的方法論也大致分為:描述性數(shù)據(jù)分析、數(shù)理統(tǒng)計(jì)分析、數(shù)據(jù)挖掘分析。
本篇文章將就此展開(kāi)談?wù)勥@三種數(shù)據(jù)分析方法論(方法論沒(méi)有好壞高低之分,只有合適的。根據(jù)業(yè)務(wù)場(chǎng)景來(lái)選擇合適的分析方法。一定要以目標(biāo)為導(dǎo)向,并不是手法越高級(jí)就越好。能用簡(jiǎn)單分析的就不需要使用大數(shù)據(jù)挖掘。)
一、描述性數(shù)據(jù)分析方法
描述性數(shù)據(jù)分析可以用一言蔽之”一句話描述數(shù)據(jù)“。我們平時(shí)說(shuō)的,這個(gè)月的平均訪問(wèn)量是多少,環(huán)比增長(zhǎng)了多少。用戶平均付費(fèi)是多少,中位數(shù)是多少,眾位數(shù)是多少,四分位數(shù)是多少都屬于描述性統(tǒng)計(jì)分析。描述數(shù)據(jù)的集中趨勢(shì)還可以用方差、標(biāo)準(zhǔn)差。用一個(gè)指標(biāo),一句話概括數(shù)據(jù)特點(diǎn)。描述數(shù)據(jù)之間的簡(jiǎn)單關(guān)系可以用相關(guān)性分析,如轉(zhuǎn)化率和用戶停留時(shí)間的正相關(guān)的(距離,以實(shí)際為準(zhǔn)。一般也是這樣。)這邊大家都比較熟悉,不過(guò)多介紹。
二、數(shù)理統(tǒng)計(jì)分析方法
數(shù)理統(tǒng)計(jì)涉及較多的數(shù)學(xué)知識(shí),但是其實(shí)常用的也就是概率論和微積分,本科的知識(shí)稍微復(fù)習(xí)一下還是容易掌握的。微積分只需要用到一元積分,用于計(jì)算概率分布。統(tǒng)計(jì)學(xué)中有許許多多的內(nèi)容,在數(shù)據(jù)分析中,并不是所有都需要掌握。因?yàn)槲覀儾皇窃谧鰧?shí)驗(yàn)室里科學(xué)實(shí)驗(yàn)的數(shù)據(jù)分析。
1. 方差分析
方差分析,又稱為F檢驗(yàn)。作用是研究因素對(duì)于數(shù)值型變量的影響。例如想要知道某次改版對(duì)于轉(zhuǎn)化率是否有顯著影響,可能從宏觀上看增長(zhǎng)的數(shù)值不大,看不大出來(lái)影響有多大,這時(shí)候就可以用方差分析做對(duì)于改版這個(gè)因素的單因素方差分析。
2. 回歸分析
回歸分析比較好理解,簡(jiǎn)單的說(shuō)就是尋找到一個(gè)函數(shù)來(lái)擬合自變量和因變量的關(guān)系。例如想要做一次活動(dòng),假設(shè)優(yōu)惠的價(jià)格x,銷(xiāo)售額為y。這兩者之間可能存在y=x+1(純舉例)這樣的函數(shù)關(guān)系式。回歸分析就是要找出這樣的函數(shù)關(guān)系,來(lái)指導(dǎo)活動(dòng)的運(yùn)營(yíng),提升ROI。
3. 因子分析
因子分析即從大量的變量中尋找共性因子的統(tǒng)計(jì)方法,因子表現(xiàn)為一種表征,通常是多個(gè)變量的集合。因子分析可以簡(jiǎn)化數(shù)據(jù),所以是一種降維的方式。常用的因子分析方法有重心法、最小平方法、最大似然法等。
三、數(shù)據(jù)挖掘分析方法
數(shù)據(jù)挖掘源于統(tǒng)計(jì)機(jī)器學(xué)習(xí),還有人工智能的方法。之前寫(xiě)過(guò)的人工智能相關(guān)的文章中有提到,AI=數(shù)據(jù)+算法=模型。數(shù)據(jù)挖掘也就是利用算法從數(shù)據(jù)中尋找規(guī)律。因?yàn)槲覀儾⒉荒芸偸悄苡贸R?jiàn)的函數(shù)去擬合所有的規(guī)律,而太復(fù)雜的規(guī)律通過(guò)人工根本就是無(wú)法進(jìn)行計(jì)算的。那么機(jī)器學(xué)習(xí)就可以做到。機(jī)器學(xué)習(xí)的原理其實(shí)就是定義一個(gè)損失函數(shù),可以把損失函數(shù)簡(jiǎn)單理解為錯(cuò)誤率。然后枚舉所有的情況,找到錯(cuò)誤率最低的模型。用在數(shù)據(jù)挖掘中,我們可以用到的機(jī)器學(xué)習(xí)算法一般有:
1. 聚類(lèi)分析
俗話說(shuō),物以類(lèi)聚。聚類(lèi)分析是一種探索性的分析方法,由機(jī)器無(wú)監(jiān)督地將樣本數(shù)據(jù)進(jìn)行分類(lèi),再觀察其特征,從而幫助發(fā)現(xiàn)潛在的共性。聚類(lèi)分析的方式也有很多,用不同方式進(jìn)行的聚類(lèi)分析結(jié)果也不盡相同。
2. 分類(lèi)
分類(lèi)應(yīng)該是機(jī)器學(xué)習(xí)、人工智能中應(yīng)用最廣泛的了。例如NLP中的情感分析、文章分類(lèi),CV中的醫(yī)療影像診斷,物品識(shí)別等等。又扯遠(yuǎn)了,回到數(shù)據(jù)分析,常用于數(shù)據(jù)挖掘的分類(lèi)算法有:
(1)決策樹(shù)
決策樹(shù)直觀上的理解就是從樣本建立分支規(guī)則。舉個(gè)簡(jiǎn)單的例子,同事A有時(shí)候遲到有時(shí)候不遲到,你觀察到如果下雨了。A就遲到。如果沒(méi)有下雨,A就不遲到。主管只有在周一和周三在,如果主管在A就要挨罵了。那么用決策樹(shù)來(lái)預(yù)測(cè)A是否會(huì)挨罵(以上例子純屬YY)就是:
能夠構(gòu)造這樣的決策數(shù)據(jù)的常用算法有C4.5、CART、CHAID、ID3等。
決策時(shí)擅長(zhǎng)處理離散數(shù)據(jù),并可以直觀出其中的關(guān)鍵變量。決策樹(shù)生成的規(guī)則也容易被人所理解。接下去要講的神經(jīng)網(wǎng)絡(luò)就不是人可以理解的了。
(2)人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)是個(gè)黑箱模型,神經(jīng)網(wǎng)絡(luò)是類(lèi)似于大腦神經(jīng)突觸連接的形式,僅僅是類(lèi)似,不能把它理解得過(guò)于玄乎,本質(zhì)上和腦神經(jīng)的運(yùn)作方式是相差很大的。人工神經(jīng)網(wǎng)絡(luò)包括輸入層、輸出層、隱藏層。其中隱藏層就是就是對(duì)輸入層的輸入進(jìn)行各種加權(quán)互聯(lián),最終得出最逼近訓(xùn)練集的結(jié)果。理論上可以逼近任何非線性的關(guān)系。能夠充分考慮到數(shù)據(jù)的各種特征。
(3)貝葉斯分類(lèi)器
是否還記得貝葉斯公式
只要知道P(Y)、P(X)、P(X|Y)就能知道P(Y|X)的值了。前3個(gè)值可以通過(guò)歷史數(shù)據(jù)得到先驗(yàn)概率,在先驗(yàn)概率的基礎(chǔ)上就能對(duì)新的事件(數(shù)據(jù))進(jìn)行后驗(yàn)概率的計(jì)算。
(4)支持向量機(jī)
SVM,是機(jī)器學(xué)習(xí)的重大成果。SVM將非線性的數(shù)據(jù)將數(shù)據(jù)映射到一個(gè)高維空間,在新的維度上,搜索一個(gè)線性最佳超平面,兩類(lèi)數(shù)據(jù)總是能夠被超平面分開(kāi)。
(5)隨機(jī)森林
隨機(jī)森林有著較高的準(zhǔn)確率,魯棒性也好。隨機(jī)森林運(yùn)用bootstrap方法從原始樣本中抽取樣本,對(duì)每個(gè)樣本進(jìn)行決策樹(shù)建模,然后將決策樹(shù)組合,對(duì)每個(gè)決策樹(shù)分類(lèi)出來(lái)的結(jié)果進(jìn)行一種投票統(tǒng)計(jì),最終得出分類(lèi)結(jié)果。這個(gè)方式很形象的被叫做隨機(jī)森林。
3. 關(guān)聯(lián)規(guī)則
舉個(gè)例子就能明白什么是關(guān)聯(lián)規(guī)則了。大家都知道的“啤酒與尿布”的例子,關(guān)聯(lián)規(guī)則算法能夠找出多次重復(fù)、同時(shí)出現(xiàn)的關(guān)系。
4. 回歸分析
描述性分析中也有回歸分析,這邊回歸和描述性分析中回歸的區(qū)別主要是,這里指的是多元線性回歸和邏輯斯蒂回歸。典型的回歸問(wèn)題是運(yùn)費(fèi)計(jì)算的問(wèn)題, 快遞運(yùn)費(fèi)受地區(qū)、重量、物品類(lèi)型、運(yùn)送方式等多種因素的影響,這時(shí)候可以使用多元線性回歸來(lái)分析他們之間的關(guān)系。
本次的分享就到這里,本文大概梳理了統(tǒng)計(jì)數(shù)據(jù)分析的方法論,接下去的系列文章將會(huì)逐個(gè)對(duì)各種方式進(jìn)行介紹。
相關(guān)閱讀
#專(zhuān)欄作家#
躚塵,人人都是產(chǎn)品經(jīng)理專(zhuān)欄作家。人工智能產(chǎn)品經(jīng)理,獨(dú)立音樂(lè)人,擅長(zhǎng)需求分析、原型設(shè)計(jì)和項(xiàng)目管理。喜歡閱讀、思考、創(chuàng)作。網(wǎng)易云音樂(lè)主頁(yè):躚塵。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Pexels,基于 CC0 協(xié)議
后續(xù)對(duì)方法論的詳細(xì)介紹呢??
聚類(lèi)和分類(lèi)有什么區(qū)別?
分類(lèi)是監(jiān)督類(lèi)模型,初始樣本是有標(biāo)簽的;聚類(lèi)是無(wú)監(jiān)督模型,初始樣本是無(wú)標(biāo)簽的。
這個(gè)分析用在運(yùn)營(yíng)上好使嗎?
AI=數(shù)據(jù)+模型+算法 ?
不是。AI=數(shù)據(jù)+算法=模型。概括的描述。非官方非標(biāo)準(zhǔn)定義。