人人都要懂?dāng)?shù)據(jù)分析
數(shù)據(jù)不會(huì)說(shuō)謊,但是使用數(shù)據(jù)的人會(huì)利用數(shù)據(jù)說(shuō)謊,想要不掉進(jìn)數(shù)據(jù)的陷阱,首先你必須懂?dāng)?shù)據(jù)。
本文的靈感來(lái)自Khan academy的宣傳視頻 You can learn anything!
The most beautiful, complex concepts in the whole universe are built on basic ideas that anyone, anywhere can understand.
Whoever you are, wherever you are, you only have to know one thing:You can learn anything!
我與數(shù)據(jù)的淵源起于高中吧,之前數(shù)學(xué)一直平平,高一遇到了一個(gè)好老師突然開(kāi)竅數(shù)學(xué)一直都不錯(cuò)。后來(lái)到了大學(xué)商學(xué)院基礎(chǔ)課程中有統(tǒng)計(jì),研究生專修市場(chǎng)分析學(xué),更系統(tǒng)的學(xué)習(xí)了統(tǒng)計(jì)學(xué),搞搞聚類因子分析、決策樹(shù)和邏輯回歸模型啥的(捂臉都忘了)。
第一份工作天天寫(xiě)SAS代碼,后面的工作更多是對(duì)數(shù)據(jù)的解讀和分析,我覺(jué)得吧,其實(shí)不管從事什么工作,都需要懂?dāng)?shù)據(jù)分析。
正所謂“流氓懂科學(xué),誰(shuí)也擋不住”。如今越來(lái)越多的復(fù)雜統(tǒng)計(jì)數(shù)據(jù)像潮水般向我們涌來(lái),一批又一批的調(diào)查結(jié)果,都顯得那么鏗鏘有力,似乎那就是客觀事實(shí)。統(tǒng)計(jì)陷阱被科學(xué)流氓們包裝的越發(fā)完美,一不小心就把我們忽悠了。
先不論其他的目的,為了防止被忽悠,培養(yǎng)批判性思考的能力,我們要學(xué)學(xué)數(shù)據(jù)分析!
數(shù)據(jù)解讀,正確的數(shù)據(jù)解讀,是所有數(shù)據(jù)分析工作最關(guān)鍵的一步,這一步錯(cuò)了,前面的所有努力都是白搭,然后,往往很多人簡(jiǎn)單的以為“數(shù)據(jù)會(huì)說(shuō)話”,他們認(rèn)為把數(shù)據(jù)處理完一擺就ok了
幸存者偏差(Survivorship bias),另譯為“生存者偏差”或“存活者偏差”,駁斥的是一種常見(jiàn)的邏輯謬誤(“謬誤”而不是“偏差”),這個(gè)被駁斥的邏輯謬誤指的是只能看到經(jīng)過(guò)某種篩選而產(chǎn)生的結(jié)果,而沒(méi)有意識(shí)到篩選的過(guò)程,因此忽略了被篩選掉的關(guān)鍵信息。
這東西的別名有很多,比如“沉默的數(shù)據(jù)”、“死人不會(huì)說(shuō)話”等等。
在日常生活中,最明顯的例子就是“我親戚吃這個(gè)藥好了”或者“我一個(gè)朋友去找了這個(gè)老中醫(yī)”等等。
不管你的親戚和朋友和你關(guān)系如何好,如何值得信任和尊重,在客觀規(guī)律面前他們都是等同的。疾病和醫(yī)藥不會(huì)因?yàn)槟愕南埠枚疹櫥蛘咂荒愕挠H朋。
如何應(yīng)對(duì)呢?最明顯的辦法當(dāng)然是讓“死人”說(shuō)話。雙盲實(shí)驗(yàn)設(shè)計(jì)和詳細(xì)全面客觀的數(shù)據(jù)紀(jì)錄都是應(yīng)對(duì)“幸存者偏差”的良方。
所謂“兼聽(tīng)則明”也是這個(gè)道理,拋掉對(duì)個(gè)案的迷信,全面系統(tǒng)的了解才能克服這個(gè)偏差。
美國(guó)人的錢(qián)袋長(zhǎng)、高都是羅坦提亞木匠的兩倍,看起來(lái)挺忠實(shí)于數(shù)據(jù)的,但是右邊錢(qián)袋實(shí)際占用的面積就是左邊的4倍。
這幅圖像導(dǎo)致的暗示效果其實(shí)還沒(méi)完,因?yàn)樵谏钪绣X(qián)袋都是立體的,所以每個(gè)讀者看到這個(gè)錢(qián)袋的時(shí)候會(huì)不經(jīng)意地給它加上一個(gè)厚度,這樣一來(lái),在有些人眼里這幅圖表達(dá)的明明是美國(guó)木匠的收入是羅坦提亞的8倍——這樣的印象完全脫離了原始數(shù)據(jù)所給出的信息,無(wú)疑是一次成功的誤導(dǎo)。
在美國(guó)與西班牙交戰(zhàn)期間,美國(guó)海軍的死亡率是 9‰,而同時(shí)期紐約市居民的死亡率是 16‰。后來(lái)海軍征兵人員就用這些數(shù)據(jù)來(lái)證明參軍更安全。
如果假定這些數(shù)據(jù)是正確的,那 么促使這種差異產(chǎn)生的真正原因是什么?海軍征兵人員根據(jù)兩個(gè)數(shù)據(jù)的差異得出的結(jié)論是否正確?
這兩組對(duì)象是不可比的。海軍主要由那些體格健壯的年輕人組成,而城市居民包括嬰兒、 老人、病人,他們無(wú)論在哪兒都有較高的死亡率。這些數(shù)據(jù)根本不能說(shuō)明符合參軍標(biāo)準(zhǔn)的人 在海軍會(huì)比在其他地方有更高的存活機(jī) 會(huì),相反的結(jié)論也不能證明。
在上例中,當(dāng)抽煙與低分同時(shí)出現(xiàn)時(shí),人們得到了一個(gè)未經(jīng)證實(shí)的假設(shè),抽煙導(dǎo)致低分。
難道就不能是相反的解 釋嗎?也許低分促使學(xué)生不喝酒而變得愛(ài)抽煙。這種說(shuō)法與前一種一樣能得到證據(jù)很好的支撐。只是它不能夠滿足宣傳人員的要求。然而,更大的可能性是兩個(gè)周素并不互為因果,而同為第三個(gè)因素的產(chǎn)物。
是否那些不把讀書(shū)當(dāng)回事的愛(ài)社交的學(xué)生更愛(ài)抽煙?又或者是否可以在有人曾經(jīng)建立的性格外向與成績(jī)之間的相關(guān)關(guān)系(其相關(guān)性比成績(jī)和智力的相關(guān)性更高)上找到線索?也許,性格外向的學(xué)生比性格內(nèi)向的更愛(ài)抽煙。
一種相關(guān)是由于機(jī)緣巧合而產(chǎn)生的。由于機(jī)會(huì)的存在,你或許可以通過(guò)一組數(shù)據(jù)來(lái)證明 一些根本不存在的結(jié)論。但換一組數(shù)據(jù)也許又無(wú)法證明。就像自稱能防止蛀牙的牙膏生產(chǎn)廠商,你只需將對(duì)自己不利的資料扔到一邊而公開(kāi)你需要的結(jié)論就能達(dá)到目的。
利用小樣本, 任意兩個(gè)你能想到的事件或兩組特性之間都能建立顯著的相關(guān)。
本文由@cyx1106 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
麥肯錫里呆過(guò)吧
阿米巴
作為一名數(shù)據(jù)分析師所具備的基本“素質(zhì)”
看的一頭霧水,各種高大上,看完還是不知道該咋干
有找到什么好的數(shù)據(jù)分析實(shí)例文章分享嘛
mece 用的淋漓盡致
把統(tǒng)計(jì)學(xué)原理都搬出來(lái)了(?>?<)☆
學(xué)習(xí),怎么科學(xué)使用數(shù)據(jù)