數(shù)據(jù)分析篇|基于推斷統(tǒng)計學(xué),把握問題核心洞悉數(shù)據(jù)模式與趨勢
Hi,各位看官老爺們好~,在前兩篇《數(shù)據(jù)分析-初識數(shù)據(jù)埋點(一)》、《數(shù)據(jù)分析-初識數(shù)據(jù)埋點(二)》中已經(jīng)對實戰(zhàn)應(yīng)用中的數(shù)據(jù)埋點的基礎(chǔ)認(rèn)知、基本分類、定義規(guī)范、流程以及詳細(xì)的應(yīng)用場景與大家做了全面的討論,第三篇也就是本篇將在數(shù)據(jù)埋點的基礎(chǔ)之上深入討論后續(xù)數(shù)據(jù)分析中的一些問題,達(dá)到真正的把握客觀數(shù)據(jù)核心的目的!
經(jīng)過產(chǎn)品經(jīng)理詳細(xì)且周密的埋點準(zhǔn)備工作以及產(chǎn)品線上各個環(huán)節(jié)童鞋的齊心協(xié)力,需求以及埋點方案終于上線啦。部分看官認(rèn)為上線了即代表大頭的活都完成了,實際上,上線后才是埋點剛剛開始收集數(shù)據(jù)的開端,這才剛剛開始~
收集了數(shù)據(jù)緊接著面臨的問題就是怎么分析才是最精準(zhǔn)的、嚴(yán)謹(jǐn)?shù)模?/strong>理想情況下從埋點上線那一刻起一直到產(chǎn)品退市,取全量所有時間點的數(shù)據(jù)進(jìn)行分析時,數(shù)據(jù)才最準(zhǔn)確。那在實際工作中也要用此方法嗎?顯然不行~
其次相信大家在日常工作中或多或少都聽說過以下的問題:
場景一:某產(chǎn)品的需求上線后,隔了一天,從后臺取出埋點數(shù)據(jù)一看,效果很好,有大量的用戶在使用這個功能。并且推動了轉(zhuǎn)化率的提升,最終提升了核心指標(biāo)。安奈不住心中的喜悅,拿著一天的數(shù)據(jù)去跟領(lǐng)導(dǎo)匯報,結(jié)果卻被領(lǐng)導(dǎo)大罵一場~~
場景二:產(chǎn)品需求A(詳情頁X功能優(yōu)化)剛上線3天,還沒有分析需求A所涉及的所有主要評估埋點,以及輔助評估埋點,以及后續(xù)的流程,緊接著在同一個頁面:詳情頁上線需求Y。領(lǐng)導(dǎo)得知此事后,然后、然后產(chǎn)品經(jīng)理被領(lǐng)導(dǎo)叫去喝茶了…
場景三:某產(chǎn)品經(jīng)理說,自己負(fù)責(zé)的產(chǎn)品已經(jīng)處于產(chǎn)品生命周期的中后期了,不求快速迭代增長,只求穩(wěn)定,減緩數(shù)據(jù)下跌速度。需求少,幾個月都沒有一個需求上線。等上線需求以及埋點方案后,我等上3個月,3個月時間夠長!數(shù)據(jù)一定具備代表性,一定能反應(yīng)客觀真相。領(lǐng)導(dǎo)得知此事后,大家懂得,產(chǎn)品經(jīng)理被領(lǐng)導(dǎo)叫去喝茶了…
在不同的場景中各產(chǎn)品經(jīng)理是因為什么原因?qū)е卤徽埡炔枘?,下面做下初步的問題拆解:
- 場景一中顯然取數(shù)的周期太短,樣本數(shù)據(jù)不具備代表性,不能代表整體趨勢。例如:新上線的功能,用戶趨于好奇去點了下,看看好用不好用,怎么用,而不是需求驅(qū)動的功能使用。
- 場景二不僅3天的數(shù)據(jù)周期并不具備代表性不能代表整體趨勢。而且在X功能沒有輸出分析結(jié)論的前提下在同一個頁面上線需求Y。帶來的結(jié)果就是無論數(shù)據(jù)漲跌,都無法產(chǎn)出分析結(jié)論,X功能與Y功能相互影響,無法判定數(shù)據(jù)漲跌的原因。最壞的結(jié)果就是:雖然X功能導(dǎo)致數(shù)據(jù)下降,但是由于判斷兩個功能之間的影響關(guān)系,只能一刀切,兩個功能一起下線。
- 場景三雖然取數(shù)的周期足夠長,但是由于外部因素影響,也可能使數(shù)據(jù)有偏移客觀事實的趨向。例如在二手車行業(yè),大的節(jié)日,不同的月份,以及新車發(fā)布會等等外部事件都會對產(chǎn)品數(shù)據(jù)的波動產(chǎn)生較大的影響。
問題匯總:
- 上線后數(shù)據(jù)取幾天才能進(jìn)行推斷分析? 為什么幾天的局部樣本數(shù)據(jù)能代表整體?
- 同一份數(shù)據(jù),不同的人給出了不同的結(jié)論?怎么把握了問題的核心抓住數(shù)據(jù)的趨勢?
帶著疑問,與大家一起利用統(tǒng)計學(xué)上的理論與方法進(jìn)入今天的正文,幫我們找到真相!
在數(shù)據(jù)統(tǒng)計中研究現(xiàn)象的總體數(shù)量關(guān)系時,需要了解的總體對象的范圍往往是很大的,有時甚至是無限的,而由于各項目進(jìn)度、時間和精力等各種原因,以致有時在客觀上只能從中觀察部分?jǐn)?shù)據(jù)或有限數(shù)據(jù)進(jìn)行計算和分析,根據(jù)局部觀察結(jié)果來推斷總體。
并且根據(jù)局部觀察結(jié)果來推斷總體時,其中把握局部問題的核心才是當(dāng)務(wù)之急。從一大堆數(shù)字中看出模式和趨勢可能頗為不易,而求出平均數(shù)往往是把握全局的第一步。有了平均數(shù)就能迅速找出數(shù)據(jù)中最具代表性的數(shù)值,得出重要結(jié)論,在本篇中將與大家討論幾種方法,幫助計算最重要的統(tǒng)計量—均值、中位數(shù),基于以上有效的匯總數(shù)據(jù),達(dá)到得出簡練、有用的結(jié)果的目的。
為什么幾天的局部樣本數(shù)據(jù)能代表整體趨勢?首當(dāng)其沖則需要用到的就是統(tǒng)計學(xué)上的辛欽大數(shù)定律,討論定律前首先需要了解以下名詞:
相互獨立:獨立就是每次抽樣之間是沒有關(guān)系的,不會相互影響。
例如:本汪拋一枚骰子,第一次拋骰子的結(jié)果是1點,第二次拋骰子的結(jié)果是6點,第一次投中1點的結(jié)果并不影響第二次投中6點的結(jié)果,互不影響,相互獨立。
同分布:同樣例如本汪拋骰子,每次投中任意點數(shù)的概率均為1/6,這就是同分布的。
意味著變量和變量之間具有相同的分布形狀和相同的分布參數(shù),對離散隨機(jī)變量具有相同的分布律,對連續(xù)隨機(jī)變量具有相同的概率密度函數(shù)
獨立同分布:在概率統(tǒng)計理論中,指隨機(jī)過程中,任何時刻的取值都為隨機(jī)變量,如果這些隨機(jī)變量服從同一分布,并且互相獨立,那么這些隨機(jī)變量是獨立同分布。獨立同分布最早應(yīng)用于統(tǒng)計學(xué),隨著科學(xué)的發(fā)展,獨立同分布已經(jīng)應(yīng)用數(shù)據(jù)挖掘,信號處理等不同的領(lǐng)域。
均值:為了求出一批數(shù)字的均值,我們會將這些數(shù)字加起來,然后除以這些數(shù)字的個數(shù)。均值是應(yīng)用最廣泛的統(tǒng)計量之一。由于使用如此頻繁,統(tǒng)計師專門給了他一個符號:μ。這是一個希臘字母(讀作“謬”)。記住這只是表示均值的一種簡介方法。
數(shù)學(xué)期望E(X):通俗一點,各位看官老爺可以理解為我們生活中說的平均值(在統(tǒng)計學(xué)上叫均值μ,不過當(dāng)前為了便于通俗,可暫理解為E(X)=平均值,后面涉及數(shù)學(xué)期望E(X)時會單獨展開討論)。
基于以上名詞解釋后,下面介紹關(guān)鍵的辛欽大數(shù)定律:
設(shè)X1,X2,…是相互獨立,服從同一分布的隨機(jī)變量序列。且具有數(shù)學(xué)期望E(Xk)=μ.(k=1,2,…)。作前N個變量的算數(shù)平均
注釋:讀作“西格瑪”各位看官老爺可以理解為“將所有的變量加起來的意思”
上圖中即代表,K從1到N所有變量加起來/n
則對于任意ε>0,有
公式的證明過程此處不再展開。
上圖即代表當(dāng)外面lim下面的N趨近于無窮大前置條件下,K從1到N所有變量加起來/n
的結(jié)果減去平均值μ取絕對值后的結(jié)果小于任意大于0的變量的概率為1。
對于獨立同分布且具有相同均值μ的隨機(jī)變量X1,X2,…XN,當(dāng)N很大時,他們的算數(shù)平均數(shù)
很接近于μ,由此推導(dǎo)出以下結(jié)論:可以用樣本的均值去估計總體均值。
所以,綜上所述,利用得出的結(jié)論,基于業(yè)務(wù)和實際樣本情況評估數(shù)據(jù)埋點時,我們就可以用每個埋點局部樣本數(shù)據(jù)推斷總體趨勢,這樣看似基于直觀的經(jīng)驗得出的結(jié)論便具備了數(shù)學(xué)意義的理論支撐。
其中樣本數(shù)據(jù)在取數(shù)時在盡可能保證其他因素變量不變的前置條件下,取1周~2周之間的數(shù)據(jù)作為樣本進(jìn)行數(shù)據(jù)評估為宜。最好是1周后取一次查看數(shù)據(jù)表現(xiàn)并形成初步結(jié)論,2周后再取一次數(shù)據(jù)查看數(shù)據(jù)表現(xiàn)與第一周的數(shù)據(jù)在趨勢上是否吻合,是否存在較大的波動進(jìn)行雙重驗證,并輸出分析結(jié)論,如2份數(shù)據(jù)差異較大,則有必要詳解的向下拆解,并持續(xù)重點關(guān)注數(shù)據(jù)變化~
本例中基于二手車行業(yè)產(chǎn)品,以及工作經(jīng)驗給出1~2周的數(shù)據(jù)周期作為參考,各位看官可根據(jù)實際情況以及樣本數(shù)據(jù)的波動情況以及是否穩(wěn)定來動態(tài)變化取數(shù)周期,靈活應(yīng)對。
經(jīng)過以上數(shù)據(jù)周期后,假設(shè)我們獲得以下數(shù)據(jù),如圖所示:
名詞解釋:
均值:可能以前有人讓你算過平均數(shù),計算數(shù)據(jù)的平均數(shù)的一個方法是:將所有數(shù)字加起來然后除以數(shù)字的個數(shù),在統(tǒng)計學(xué)中,這樣算出來的值叫做均值。
可能各位看官會問,我已經(jīng)習(xí)慣了叫平均數(shù)了,這樣叫有什么不妥嗎?
且聽我慢慢道來,因為在統(tǒng)計學(xué)上平均數(shù)不止一種,我們必須知道如何分別稱呼每一種平均數(shù),才能方便的告訴別人你所說的是哪一種平均數(shù),避免產(chǎn)生歧義,就像我們?nèi)ベI果汁,在果汁店要告訴售貨員要哪種果汁?蘋果汁?西瓜汁?還是梨汁?考慮到這一點,最好是明確指定所用的是哪一種平均數(shù)的計算方法。
首先介紹均值:為了求出一批數(shù)字的均值,我們會將這些數(shù)字加起來,然后除以這些數(shù)字的個數(shù)。均值是應(yīng)用最廣泛的統(tǒng)計量之一。由于使用如此頻繁,統(tǒng)計師專門給了他一個符號:μ。這是一個希臘字母(讀作“謬”)。記住這只是表示均值的一種簡介方法。
頻數(shù):在計算一批數(shù)據(jù)的均值時,我們常常會發(fā)現(xiàn)有些數(shù)字是重復(fù)的。例如上圖中有三天的數(shù)據(jù)都是100。
有一點確實很重要:在計算均值的時候,要把每個數(shù)的頻數(shù)考慮進(jìn)去,為了確保不忽視這一點,我們可以把它寫入公式,用f代表頻數(shù),就可以重新將均值表示如下:
這是表示均值的另一種方法,但這次明確指出了頻數(shù),用這個方法計算的數(shù)據(jù),得出:
然后我們得出初步結(jié)論:X按鈕的典型值μ等于627,每天有627的點擊量!
此時可能部分看官提出了挑戰(zhàn),任務(wù)這個典型值是錯誤的,因為沒有一個值等于或者近似于679.9這個典型值。
哪里出現(xiàn)了問題?
我們需要查看數(shù)據(jù),探明究竟,讓我們看看,繪制一個數(shù)據(jù)表格,看能否有助于幫助我們找到問題所在。
并繪制成直方圖如下:
通過直方圖看出點擊量形成了對稱的形狀,很容易看出點擊量的典型值。大部分的點擊量都在100上下,有2個值遠(yuǎn)遠(yuǎn)超過100,分別是3000和3002,像這樣的極值被稱作異常值。
通過直方圖可以看出,樣本中存在3000和3002這兩個異常值,那如果去除這兩個異常值,均值會是多少?與實際的均值進(jìn)行對比會得出異常值的影響是什么?
觀察數(shù)據(jù)的表格與直方圖,很容易看出點擊量在99.7左右,如果表格中不包含那2個異常值的話,99.7就是均值。這2個異常值扭曲了均值,使均值抬高了。一旦發(fā)生了這種情況,我們就說數(shù)據(jù)偏斜了。
偏斜的原因是異常值處于均值的右邊,我們稱這種情況為向右偏斜。
向右偏斜的數(shù)據(jù)有一條“尾巴”,這條尾巴由偏大異常值形成,偏大異常值扭曲了均值,使均值拉高了—即拉向了右邊。
同理,以下圖為例解釋“向左偏斜”,下圖中近似出的數(shù)據(jù)分布曲線向左偏斜了,表明存在異常值(極小值),這些異常值較低把均值拉向了左邊。在這種情況下,均值小于大部分值。
在理想情況下,我們會希望看到通過直方圖近似出來的曲線為呈對稱形態(tài)。如果數(shù)據(jù)對稱,則均值位于中央。不會有任何異常值將均值拉向任何一側(cè),中央位置兩側(cè)的數(shù)據(jù)形態(tài)大致相同。如下圖所示:
中位數(shù):
當(dāng)偏斜數(shù)據(jù)和異常值使均值產(chǎn)生誤導(dǎo)時,我們就需要用其他方式表示典型值?!爸形粩?shù)”閃亮登場,我們可以取中間值,這種做法是可行的,中間值其實就是另一種平均數(shù),統(tǒng)計學(xué)上稱為中位數(shù)。
為了求出點擊量的中位數(shù),首先將點擊量升序排列,取出中間數(shù),如下所示:
如果各位看官在計算時,數(shù)量為偶數(shù)的話,則只要將兩個中間數(shù)加起來,再除以2,即可,結(jié)果就是中位數(shù)。此處不再展開討論。
大多數(shù)場景下,我們會使用均值,因為均值的優(yōu)勢遠(yuǎn)勝于中位數(shù),均值對于抽樣數(shù)據(jù)來說更穩(wěn)定,但是如上文所述,均值也有缺點,當(dāng)樣本數(shù)據(jù)中存在異常值時,均值會被異常值帶偏,在這樣的場景下則可以使用中位數(shù)來表示典型值,因為中位數(shù)總是穩(wěn)穩(wěn)的站在樣本數(shù)據(jù)的中間。此外除了我們討論的均值、中位數(shù)外,還有一個平均數(shù):眾數(shù),適用于一個樣本數(shù)據(jù)中存在兩種類型的數(shù)據(jù)時使用,因為在統(tǒng)計埋點時均為一類一類的統(tǒng)計,不存在眾數(shù)的應(yīng)用場景,所以此處不再展開。
總結(jié)
基于統(tǒng)計學(xué)上辛欽大數(shù)定律:可以用樣本的平均值去估計總體平均值,作為理論基礎(chǔ),解決了為什么能利用局部數(shù)據(jù)代表整體趨勢的問題,其次解釋了局部樣本數(shù)據(jù)取數(shù)周期的邏輯,為各位看官在自己實際工作中靈活取樣本數(shù)據(jù)的數(shù)據(jù)周期提供一些思路。并進(jìn)一步通過利用統(tǒng)計學(xué)上均值與中位數(shù)找到樣本數(shù)據(jù)的典型值方法,解決在一份樣本數(shù)據(jù)中如何把握問題的核心抓住數(shù)據(jù)的趨勢的問題,防止因異常值的影響對數(shù)據(jù)做出錯誤解讀,使數(shù)據(jù)真正客觀真實的反應(yīng)趨勢,進(jìn)而解決業(yè)務(wù)問題,創(chuàng)造價值。
下篇預(yù)告:
通過前兩篇涉及埋點的討論加上本篇中對基于推斷統(tǒng)計學(xué)把握問題核心洞悉數(shù)據(jù)模式與趨勢的深入討論,默認(rèn)各位看官從定義埋點到埋點數(shù)據(jù)分析把握客觀數(shù)據(jù)已經(jīng)輕車熟路了,(^-^)V
下篇將與各位看官一起,創(chuàng)造一個新的階段性法寶“流量地圖”。
幫助各位看官在實際工作中把控整體產(chǎn)品的健康狀態(tài),及時發(fā)現(xiàn)產(chǎn)品問題以及可優(yōu)化點,調(diào)整迭代計劃,創(chuàng)造用戶價值,進(jìn)而達(dá)到提升產(chǎn)品的核心指標(biāo)的目的?。?!
最后一句:以上我說的都是錯的,只有適合你的才是正確的!
再加一句:各位看官,如果您覺的本文對您有幫助,記得給個贊哦,(*  ̄3)謝謝啦。
相關(guān)閱讀
數(shù)據(jù)分析入門:初識數(shù)據(jù)埋點(一)
數(shù)據(jù)分析入門:初始數(shù)據(jù)埋點(二)
本文由 @Aaron 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 unsplash,基于 CC0 協(xié)議
淺顯易懂(看官敬酒
起點學(xué)院專門為0基礎(chǔ)的0-2歲互聯(lián)網(wǎng)人開設(shè)了《15天入門互聯(lián)網(wǎng)數(shù)據(jù)分析》班級哦~課程由數(shù)據(jù)思維+真實案例+實操相結(jié)合,提升你的數(shù)據(jù)分析能力!戳此了解>>http://996.pm/YNG4e
老公寫得太好了,點贊
老公???
樣本的平均值并不一定能代表總體,畢竟存在冪律分布的問題。是否還需求得不同樣本的方差、標(biāo)準(zhǔn)差與變異系數(shù)來判斷數(shù)據(jù)樣本的離散程度
想給我的概率老師和線代老師道歉,為啥這些東西我都忘記了 ??
你把老師沒講通的數(shù)學(xué)問題都解釋清楚了。。敢問樓主什么專業(yè)
我去,你提到第二篇的時候我就想到了概率論的獨立事件!
老哥,寫的太好了,我現(xiàn)在在做數(shù)據(jù)埋點,看你的文章,思路現(xiàn)在捋順了,就是命名還不是很清楚,還有就是想把統(tǒng)計學(xué)和概率再學(xué)一下,有沒有具體那些知識點現(xiàn)在學(xué)了就能用上的呢,老哥,想加你個微信,方便嗎?
老哥,我就是統(tǒng)計專業(yè)現(xiàn)在做BI,接到埋點的項目,救命了,快點更新啊,寫得都蠻好
同為數(shù)據(jù)產(chǎn)品經(jīng)理,我加了你微信,麻煩通過一下。。咱們以后交流交流
讓我想起了大學(xué)學(xué)的統(tǒng)計學(xué) 全忘了
那就再來一遍, ?? 統(tǒng)計學(xué)+概率論+線性代數(shù)+高等數(shù)學(xué)更配呦 ??
哎,蛋蒸,這里也能遇到你。
求解答,利用頻數(shù)計算均值的時候,為啥被除數(shù)最后要加1?
非常受益了!感謝作者!
受益匪淺?。?!非常感謝?。?/p>
寫的實在是好。不贊都不行了。
大兄弟,加個QQ交流下吧。
Key和Value的命名規(guī)則能介紹下嗎?
第一篇有寫呀
哈哈,這篇基本講統(tǒng)計學(xué),重點就是均值,中位數(shù)輔助??戳肆髁康貓D來看的,數(shù)據(jù)埋點的兩篇受益匪淺,感謝 & 贊贊贊!
你看,這篇如此學(xué)術(shù),都沒有人來評論了。我捧個場
感謝大胸第 ??