假如數(shù)據(jù)欺騙了你:產(chǎn)品經(jīng)理如何識破數(shù)據(jù)謊言?
數(shù)據(jù)千萬條,甄別第一條,數(shù)據(jù)不規(guī)范,老板兩行淚。
對產(chǎn)品經(jīng)理而言,數(shù)據(jù)無疑是工作中需要常常借鑒的對象,畢竟這是個數(shù)據(jù)推動發(fā)展的時代。數(shù)據(jù)之所以重要,正是因為數(shù)據(jù)是記錄客觀事實的一種符號,因此在統(tǒng)計數(shù)據(jù)面前,許多人潛意識里的第一反應(yīng)就是無條件信任它。
但現(xiàn)實是,許多看似靠譜的數(shù)據(jù),都是別有用心的機構(gòu)利用了數(shù)據(jù)的客觀性,為我們輸出了一個與現(xiàn)實大相徑庭的結(jié)論。雖然數(shù)據(jù)本身不會說謊,但說謊者需要數(shù)據(jù)。
數(shù)據(jù)都說了哪些謊?
1. 樣本偏差的欺騙性
(1)幸存者偏差
也叫“沉默的數(shù)據(jù)”。如果要說得更具體點,就是當你在分析某個事物的時候,可能會面對諸多的證據(jù)(樣本),但是大多數(shù)人通常只注意到“顯式”的樣本和證據(jù),而忽略了“隱式”的樣本和證據(jù),從而得出錯誤的認知、錯誤的結(jié)論。
下面舉一個最著名的例子:二戰(zhàn)期間,英國皇家空軍計劃在轟炸機上進行改造,以抵抗德軍戰(zhàn)斗機和陸基高射炮的攻擊。
他們統(tǒng)計了聯(lián)軍返航的轟炸機受損情況,作戰(zhàn)指揮官認為應(yīng)該加強機翼的防護,因為分析表明,那里“密密麻麻都是彈孔,最容易被擊中”。但是統(tǒng)計學家卻有不同觀點,他建議加強座艙與機尾部位的裝甲,因為那兒發(fā)現(xiàn)的彈孔最少,說明大多數(shù)被擊中飛行員座艙和尾部發(fā)動機的飛機,根本沒法返航就墜毀了。
上面的例子不是數(shù)據(jù)說謊,而是你沒注意到沉默的數(shù)據(jù)(缺少了的樣本)。當數(shù)據(jù)樣本僅采自“幸存者”、信息不夠全面的時候,得出來的結(jié)論有可能才是最離譜的,需要分析者有足夠廣的視角和邏輯,才能從數(shù)據(jù)里挖掘出隱性的真相。
(2)不充分的樣本數(shù)據(jù)
- “用戶反映,使用A品牌牙膏將使蛀牙減少23%。”
- “B品牌洗衣粉能有效減少90%種污漬殘留。”
你也許常常能從廣告中的某些權(quán)威機構(gòu)、研究人員口中得知這些結(jié)論,但如果你仔細觀看,或許能看到這樣一行小字:此次實驗由**(假設(shè)30)名用戶組成,甚至有些廣告還故意抹去這些信息。這些信息意味著,只要你找來多組測試用戶,每組30人,持續(xù)使用一段時間的該品牌產(chǎn)品,就會得出以下的任意一種結(jié)果(以牙膏為例):
- 蛀牙明顯增多
- 蛀牙明顯減少
- 蛀牙數(shù)量無明顯變化
事實上,不管用戶使用的是哪種牙膏,由于機遇作用,第二種結(jié)果是遲早會被試驗出來的。由于試驗人數(shù)只有30人(樣本總數(shù)不大),所以得到的結(jié)論極有可能是牙膏效果極佳(蛀牙減少23%),商家就是利用這樣不充分的樣本數(shù)據(jù),來達到預(yù)期的廣告效果。現(xiàn)實中,也要警惕在信息不對稱的情況下,脫離總量談現(xiàn)象的流氓思維。
(3)樣本本身存在偏差
假設(shè)調(diào)研一座城市的人均消費水平。如果是在飛機場調(diào)研,或許會得出“城市發(fā)達、人民收入高”等結(jié)論,但如果到貧民窟里調(diào)查,結(jié)論就會截然相反,因為城市里真正貧窮的人很少會在機場出沒。
企業(yè)也常常利用這種選擇性的誤差來為某個現(xiàn)象尋求合理性,比如智能手機領(lǐng)域喜歡用數(shù)據(jù)“打臉”友商,但是由于大家采用的統(tǒng)計口徑不同,所以常常在同一領(lǐng)域遇到數(shù)據(jù)打架的情況。
還有一種情況就是樣本不夠真實,比如全社會都在傳播“吃飯不光盤是種可恥的行為”這種理念后,這時你再去調(diào)研這個話題,絕大多數(shù)受訪人都會表示自己是個“凈壇使者”,因為幾乎所有調(diào)查都無法避免人們往自己臉上貼金,這種情況下除非采用匿名調(diào)查或者直接調(diào)查飯后餐桌上的盤子,否則很難獲取到完全真實的數(shù)據(jù)。
這些案例說明即便你找不到任何數(shù)據(jù)遭到破壞的證據(jù),也很難避免樣本本身在說謊,因此只要是樣本有存在變量誤差的可能,就要保留懷疑的態(tài)度。
2. 用平均數(shù)掩蓋差距
假如把比爾蓋茨移民到某個非洲落后國家,該國的人均GDP相應(yīng)地也會有很大幅度的上漲。但這有意義嗎?該國貧民窟里的窮人依然吃不上面包。
類似的,即使某地區(qū)人均收入有了提升,但依然存在一種可能性,就是富人財富量的增加遠遠快于窮人財富量的增加,造成的結(jié)果是“數(shù)據(jù)顯示人均收入上升,但貧富差距在拉大”。
比如美國前總統(tǒng)奧巴馬在謀求第二任期的競選活動中提到,“美國經(jīng)濟自09年以來增長了13%”。但他沒有說的是,其實美國人只有最富有的那1%的人收入增長了,剩下的99%的人收入反而比以前有輕微的下降。奧巴馬雖然贏得了連任,但“整體經(jīng)濟復(fù)蘇”與“大多數(shù)人的可支配收入沒有增長”的矛盾卻依然無解。
通常情況下,你并不會被告知數(shù)據(jù)包含了多少觀測值,當均值和中位數(shù)相差甚遠的時候,你就需要注意那些沒有標明類型的平均數(shù)(均值、中位數(shù)、眾數(shù)),否則你對它的認知依然停留在表面。
3. 數(shù)據(jù)的視覺欺騙性
上圖是2018年我國各省GDP的統(tǒng)計圖像,可以看到,同樣的數(shù)據(jù)在不同的坐標軸里呈現(xiàn)出來的狀態(tài)截然不同,左圖數(shù)據(jù)取等量遞增繪圖,右圖數(shù)據(jù)取十進制繪圖,呈現(xiàn)出來的視覺效果有相當大的不同,大多數(shù)人的第一直覺是:
- 左圖直觀表達各省GDP差距巨大
- 右圖直觀表達各省GDP差距不大
上圖是某公司四年間的收入曲線,從視覺上很容易得出以下結(jié)論:
- 左圖直觀表達公司四年間收入稍有波動,但相對平緩;
- 右圖直觀表達公司四年間收入波動巨大,目前遭遇停滯下滑的危機。
也許大家都發(fā)現(xiàn)了,波動是可以被人為操縱的,但數(shù)據(jù)卻是真實的。PPT領(lǐng)域有一句很經(jīng)典的話:能用圖,不用表,能用表,不用字。圖表誠然能幫我們更直觀的了解事實,但許多報告和演講就是有心利用數(shù)據(jù)的視覺誤差,誤導觀眾的判斷,分辨能力弱的讀者就容易被牽著鼻子走。
如果你細心留意的話,就能發(fā)現(xiàn)很多產(chǎn)品的發(fā)布會和權(quán)威機構(gòu)調(diào)查對這招都是屢試不爽的,雖然數(shù)據(jù)本身沒有問題,但這樣的呈現(xiàn)方式僅僅是為了好看。現(xiàn)在是信息化時代,一段信息里有價值的文字往往不如一張靚麗的圖表更抓人眼球,加強對數(shù)據(jù)可視化的信息分辨能力會少走很多彎路。
4. 數(shù)據(jù)不能替你思考
統(tǒng)計學數(shù)據(jù)表明:在夏天,“冰激凌的銷量”和“溺水死亡人數(shù)”成正比,二者的趨勢高度吻合。
看到這條信息你是選擇相信還是陷入沉思?如果我們通過這條數(shù)據(jù)強行把兩者聯(lián)系起來分析的話,推導出來的結(jié)論很有可能是:
- 吃冰激凌會導致人們游泳時更容易溺水
- 游泳溺水時人們喜歡用冰激凌來搶救
很詫異對吧,但如果你跳脫出數(shù)據(jù)分析的思維,以常識去推理,你就知道兩者根本沒有聯(lián)系,唯一的契合點在于“夏天天氣熱”,冰激凌的銷量會因此上升,下水游泳的人也會因此增多,自然會有更多溺水事件發(fā)生。
數(shù)據(jù)是客觀的、理智的,但人是經(jīng)驗主義者,更善于用邏輯去認識和判斷事物,數(shù)據(jù)的絕對客觀性,往往會把我們被拖入單維思考的沼澤里。
就像電影《流浪地球》的片段:以色列科學家提出點燃木星的想法,被空間站的人工智能莫斯否決。道理很簡單,莫斯作為人工智能,是絕對理性的化身,它經(jīng)過周密的科學計算后得出的結(jié)論表明:這個方案成功的概率為零,但它忽略了人類是具有感情的生物(或許是故意忽略),沖動和情感能突破理性的底線,做出人工智能不能理解的行為。
簡而言之,用空間站撞擊木星這種看上去不合理的感性行為,也許恰恰不在莫斯的數(shù)據(jù)分析范圍內(nèi)。
電影雖然是電影,但它能映射現(xiàn)實。許多在人類看來再正常不過的邏輯思維,卻是冰冷傲慢的數(shù)據(jù)分析的盲區(qū),這本質(zhì)其實是單維思考和多維思考、客觀事實和主觀邏輯的沖突。數(shù)據(jù)可以輔助你思考,但它不能代替你思考,千萬不要患上唯數(shù)據(jù)論的怪病,在認識事物的時候一定要問問自己:該相信邏輯還是該相信數(shù)據(jù)?
如何避免數(shù)據(jù)說謊
通過上面的案例我們可以知道,數(shù)據(jù)是客觀產(chǎn)生的,它只能反映問題,不會主動撒謊,真正說謊的兇手有三個“人”:
- 記錄數(shù)據(jù)的人(數(shù)據(jù)的真實性)
- 拿數(shù)據(jù)給你看的人(利用數(shù)據(jù)的目的)
- 自我的認知錯誤(解讀出現(xiàn)偏差)
1. 數(shù)據(jù)的真實性
解決的方法,第一件要預(yù)防數(shù)據(jù)生病,就是辨別數(shù)據(jù)可信度(真實性)。簡單來說,通常要遵循兩個原則:越接近第一手的數(shù)據(jù)越真實,采集的樣本越全面越可信。
例如互聯(lián)網(wǎng)產(chǎn)品經(jīng)理常常更關(guān)心數(shù)據(jù)分析的結(jié)論,而忽視了原始數(shù)據(jù)的來源和真實性,源頭如果出現(xiàn)問題,一切的分析都是徒勞的。如果你更關(guān)心渠道數(shù)據(jù)的精準度,可以使用openinstall進行渠道來源歸因統(tǒng)計和活動推廣效果監(jiān)測,openinstall在渠道數(shù)據(jù)精準度上還是比較專業(yè)的。
2. 利用數(shù)據(jù)的目的
我們要明白統(tǒng)計數(shù)據(jù)的真實價值:數(shù)據(jù)是用來揭示事物規(guī)律,進而解決問題、創(chuàng)造未來的。如果結(jié)論本身已經(jīng)客觀存在,你用再多的數(shù)據(jù)也無法讓結(jié)論變得更加正確,如果有人想要找到某個證據(jù)(數(shù)據(jù))來論證觀點,方法多的是,早晚能夠找到。
讓數(shù)據(jù)來回答問題,然后從這些數(shù)據(jù)中創(chuàng)造更多的可能,這才是數(shù)據(jù)存在的現(xiàn)實意義,也是用來辨別哪些人在利用數(shù)據(jù)說謊的方法。
3. 解讀出現(xiàn)偏差
要善用常識性的思維和多個角度去看待客觀事物的發(fā)展,既認識到數(shù)據(jù)和統(tǒng)計學的力量,也要了解它的局限性。當然,這也需要我們有基礎(chǔ)的數(shù)理科統(tǒng)計知識儲備。
數(shù)據(jù)和模型只是人們用來總結(jié)改進的方法,實踐才是真理,如果想要更深層次的解讀數(shù)據(jù)背后的意義,就要自己多去挖掘和實踐。
總結(jié)
真實深度的數(shù)據(jù)在工作中是非常有參考價值的,尤其能幫助我們建立分析框架,彌補思維漏洞。要知道,數(shù)據(jù)并不能代替分析人員做決定,獲取真實數(shù)據(jù)、善于運用數(shù)據(jù)、識破數(shù)據(jù)騙局,是需要長期培養(yǎng)和掌握的技能。
本文由 @大城小事 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
不錯、感謝分享!?。?/p>
好文