如何避免被真實(shí)的數(shù)據(jù)欺騙?

15 評(píng)論 3024 瀏覽 13 收藏 12 分鐘
🔗 产品经理专业技能指的是:需求分析、数据分析、竞品分析、商业分析、行业分析、产品设计、版本管理、用户调研等。

編輯導(dǎo)語(yǔ):在日常生活和工作當(dāng)中,我們會(huì)用一些數(shù)據(jù)來(lái)描述事實(shí),那你有被數(shù)據(jù)所欺騙嗎?本文作者從樣本、口徑、統(tǒng)計(jì)、結(jié)構(gòu)和對(duì)比這五個(gè)角度分析了數(shù)據(jù)欺騙我們的小細(xì)節(jié),感興趣的童鞋一起來(lái)看看吧。

在日常的工作中,作為數(shù)據(jù)部門(mén),我們常常說(shuō):數(shù)據(jù)就是領(lǐng)導(dǎo)力。

很多時(shí)候,如果工作中發(fā)生了沖突,站在A的角度有A的道理,站在B的角度,有B的道理,一上來(lái)講道理是很難達(dá)成一致意見(jiàn)的。但是,講數(shù)據(jù)是有可能解決分歧的,因?yàn)橹v數(shù)據(jù)就是講事實(shí),事實(shí)只可能是一個(gè)。

然而,工作和生活中,我們常常發(fā)現(xiàn),就算數(shù)據(jù)完全真實(shí),我們依然有可能被欺騙,今天就分享一些基本方法,避免被真實(shí)的數(shù)據(jù)欺騙。

一、樣本謊言

樣本謊言指的是,我們面對(duì)的客觀對(duì)象龐大而復(fù)雜,在時(shí)間、成本、能力等因素的限制下,沒(méi)辦法做到全量測(cè)量,只能對(duì)抽取的樣本進(jìn)行測(cè)量。抽樣的問(wèn)題在于,如何確保樣本能夠代表整體。存在極端小樣本或者無(wú)樣本的例子:

  • 小樣本:中國(guó)男足在世界杯漫長(zhǎng)歷史上僅僅輸了三場(chǎng)。
  • 無(wú)樣本:中國(guó)男足在02年世界杯后,再也沒(méi)有輸過(guò)一場(chǎng)世界杯比賽。

當(dāng)然,這是段子,有些人說(shuō),我把樣本的量盡可能多,不就可以避免這個(gè)問(wèn)題。

其實(shí)不是的,耳熟能詳是1936年美國(guó)大選,《文學(xué)文摘》雜志調(diào)查了240萬(wàn)選民,而蓋洛普只調(diào)查了5000人,結(jié)果蓋洛普預(yù)測(cè)成功。最大的區(qū)別在于,蓋洛普是按照全部選民的人口結(jié)構(gòu),同比例進(jìn)行抽樣,樣本雖小,但足夠典型。

在現(xiàn)實(shí)生活中,還有一種場(chǎng)景,是人為地選擇性地?cái)U(kuò)大或者挑選樣本,造成對(duì)信息接收方的誤導(dǎo)。

舉個(gè)例子,我參加軟考,沒(méi)通過(guò),然后就跟周?chē)苏f(shuō),軟考太難了,通過(guò)率甚至不到10%。這的確是個(gè)真實(shí)的數(shù)據(jù)。

但我沒(méi)說(shuō)的是,軟考的棄考率非常高,只有不到30%的考生參加了考試,如果以參加考試考生作為基數(shù),通過(guò)率就超過(guò)40%,并沒(méi)有我所說(shuō)的那么難。

面對(duì)一個(gè)統(tǒng)計(jì)數(shù)據(jù),要有意識(shí)地確認(rèn)這個(gè)數(shù)據(jù)究竟是整體,還是樣本?樣本在整體中的占比是多少、如何進(jìn)行抽樣的?對(duì)于想要表達(dá)的觀點(diǎn),樣本是否有意義。

二、口徑謊言

口徑謊言,每一個(gè)指標(biāo)都有其統(tǒng)計(jì)邏輯,在不知道背后邏輯的情況下,你以為你看到的數(shù)據(jù)就真的是你想的那樣嗎?就以現(xiàn)在新冠疫情為例,究竟新冠死亡人數(shù),是die of 還是die with,兩者的差距非常大。

在信用卡行業(yè),在比較用戶(hù)規(guī)模的時(shí)候,到底是發(fā)卡量、還是新增賬戶(hù)還是流通賬戶(hù),背后的數(shù)據(jù)就千差萬(wàn)別。即便是相同的指標(biāo):新增賬戶(hù),背后的口徑也有非常多細(xì)微的差別,反映到數(shù)據(jù)上,就可能謬以千里。

在不了解具體口徑的情況下,盲目根據(jù)數(shù)據(jù)進(jìn)行判斷,就容易掉入數(shù)據(jù)陷阱。

還有一種情況,就是通過(guò)時(shí)間軸看趨勢(shì)的時(shí)候,口徑雖然沒(méi)變,但是忽略了重要的變化因素,影響對(duì)數(shù)據(jù)趨勢(shì)的判斷。

舉個(gè)例子,在分析不良率的時(shí)候,直接看數(shù)據(jù),會(huì)發(fā)現(xiàn)指標(biāo)持續(xù)降低,大家看了都很興奮。

但是,如果你知道不良率=不良余額/貸款余額,你就會(huì)思考,不良率的降低,究竟是因?yàn)椴涣加囝~控制住了,還是貸款余額,把盤(pán)子做大了導(dǎo)致的?

如果是后者,那么,風(fēng)險(xiǎn)只是暫時(shí)掩蓋了而已,不良率數(shù)字上的降低是存在欺騙性質(zhì)的。

面對(duì)一個(gè)統(tǒng)計(jì)指標(biāo),需要注意的是,你得了解其中計(jì)算邏輯,以及哪些因素的變化可能影響數(shù)據(jù)的走勢(shì)。

在使用指標(biāo)的過(guò)程中,要有意識(shí)地確認(rèn):這個(gè)指標(biāo)可以橫向?qū)Ρ葐??可以縱向回溯嗎?

三、統(tǒng)計(jì)謊言

平均數(shù)謊言常見(jiàn)于各類(lèi)不專(zhuān)業(yè)的媒體,比如媒體會(huì)經(jīng)常制造出類(lèi)似“騰訊員工平均月薪7萬(wàn)”的新聞,很多騰訊員工直呼被平均,現(xiàn)在都成了段子。其實(shí),類(lèi)似的問(wèn)題還有很多,比如李克強(qiáng)總理說(shuō),我們?nèi)司昕芍涫杖胧?萬(wàn)元人民幣,但是有6億中低收入及以下人群,他們平均每個(gè)月的收入也就1000元左右。

在分布非常不均勻的時(shí)候,用平均數(shù)試圖描述每個(gè)人狀況就不合適了,中位數(shù)或者眾數(shù)更能體現(xiàn)真實(shí)的情況。另外,還有一種百分比謊言,比如某個(gè)專(zhuān)業(yè)的研究生,百分百進(jìn)入大廠,大家驚呼太厲害了,但事實(shí)上,可能這個(gè)專(zhuān)業(yè)同一屆畢業(yè)研究生可能不到5人。

平均數(shù)容易掩蓋差距,百分比會(huì)掩蓋規(guī)模,看到統(tǒng)計(jì)數(shù)據(jù),要學(xué)會(huì)還原原始值、要學(xué)會(huì)看分布,多想想背后有哪些特殊情景有可能會(huì)扭曲事實(shí)。

四、結(jié)構(gòu)謊言

剛畢業(yè)的時(shí)候我在房地產(chǎn)公司寫(xiě)市場(chǎng)報(bào)告,每周我都需要統(tǒng)計(jì)當(dāng)周新房成交單價(jià),進(jìn)行環(huán)比同比,判斷房?jī)r(jià)的走勢(shì)。有一次,我發(fā)現(xiàn)當(dāng)周的房?jī)r(jià)出現(xiàn)大幅下降,與當(dāng)時(shí)市場(chǎng)行情相反,我感覺(jué)數(shù)據(jù)有問(wèn)題。

經(jīng)過(guò)仔細(xì)比較,我發(fā)現(xiàn)數(shù)據(jù)是真實(shí)的,造成房?jī)r(jià)波動(dòng)的原因是當(dāng)時(shí)郊區(qū)有個(gè)樓盤(pán)當(dāng)天成交了大量房源,影響了成交新房的結(jié)構(gòu),導(dǎo)致全市的房?jī)r(jià)被拉低了。進(jìn)一步可以發(fā)現(xiàn)神奇的現(xiàn)象,郊區(qū)的大盤(pán)和全市其他樓盤(pán)的房?jī)r(jià)都是上漲,但是整體成交的單價(jià)卻是在下降。

一丁 | 如何避免被真實(shí)的數(shù)據(jù)欺騙

第一周一丁 | 如何避免被真實(shí)的數(shù)據(jù)欺騙

第二周

看表格就可以發(fā)現(xiàn),郊區(qū)大盤(pán)的每平米單價(jià)從2.9萬(wàn)上升到3.3萬(wàn),其他新房的單價(jià)從4.8萬(wàn)上升到5萬(wàn),整體卻從4.5萬(wàn)下滑到了4.3萬(wàn)。這就是著名的辛普森悖論,總體結(jié)論和部分結(jié)論恰好相反。這提醒我們,要警惕總體結(jié)論,要通過(guò)科學(xué)合理的分組查看具體細(xì)致的數(shù)據(jù)

五、對(duì)照謊言

數(shù)據(jù)是要有比較才能看到問(wèn)題的。但是,有時(shí)候我們一些不恰當(dāng)?shù)膶?duì)比,反而會(huì)影響我們的判斷。典型的例子,比如美國(guó)和西班牙交戰(zhàn)期間,美國(guó)海軍的死亡率低于同期紐約市民的死亡率,從而論證士兵更安全。

但事實(shí)上,用體格健壯的年輕人的死亡率和包含病人、老人、嬰兒的居民死亡率對(duì)比,本身就不合理。在做數(shù)據(jù)分析工作的時(shí)候,無(wú)視行業(yè)周期性波動(dòng)就會(huì)犯這類(lèi)問(wèn)題,拿3月份的業(yè)績(jī)和春節(jié)的業(yè)績(jī)進(jìn)行對(duì)比就不合適,用有雙十一的業(yè)績(jī)和其他月份比也不合理。

當(dāng)然,這些只是非常明顯的例子,還有很多每個(gè)企業(yè)細(xì)微的差異,比如在做競(jìng)品報(bào)告的時(shí)候,選取對(duì)本公司最有利的時(shí)間節(jié)點(diǎn)、城市區(qū)域、價(jià)格區(qū)間等等,會(huì)讓人產(chǎn)生誤導(dǎo)。

除此之外,我們?cè)诳梢暬臅r(shí)候,其實(shí)也會(huì)有類(lèi)似的問(wèn)題,尤其是Y坐標(biāo)軸刻度,很容易影響判斷。

以下兩個(gè)圖其實(shí)數(shù)據(jù)完全相同,但是Y坐標(biāo)軸不一致,呈現(xiàn)的信息就不一樣了。

涉及數(shù)據(jù)指標(biāo)之間比對(duì)的時(shí)候,必須注意是否存在隱含的條件是有利于其中一方的,比對(duì)的雙方是否真的有比較意義。

六、小結(jié)

以上分別從樣本、口徑、統(tǒng)計(jì)、結(jié)構(gòu)和對(duì)比五個(gè)角度分析了一些常見(jiàn)的數(shù)據(jù)欺騙我們的細(xì)節(jié),如何避免被數(shù)據(jù)欺騙,除了上面的應(yīng)對(duì)方案外,還有一些基本的方法:

1. 數(shù)據(jù)從哪里來(lái)

凡是不給出確切數(shù)據(jù)出處的,需要提高警惕,基本不可信。如果有確切出處的,多想想提供數(shù)據(jù)的是誰(shuí),站在怎樣的立場(chǎng),很多時(shí)候,提供數(shù)據(jù)方的立場(chǎng)會(huì)決定數(shù)據(jù)的樣本、口徑及呈現(xiàn)方式,英文中有一個(gè)詞“Half-truth”,即給你看的部分是真的,但它只是事實(shí)的一部分。

很多時(shí)候我們常說(shuō)要增加信息源,就是為了避免單一信息源導(dǎo)致的認(rèn)知偏差。信息多了會(huì)有冗余,但冗余也可以避免出錯(cuò)。

2. 漏掉了什么

本質(zhì)上來(lái)說(shuō),每個(gè)數(shù)據(jù)對(duì)于客觀分析對(duì)象,都只是一個(gè)要素,在系統(tǒng)思維中,除了要素,我們更要關(guān)注各個(gè)要素之間的連接關(guān)系。

指標(biāo)是怎么算出來(lái)的,相關(guān)的指標(biāo)有哪些,指標(biāo)之間的關(guān)系是怎樣的,是否遺漏了某個(gè)重要的因素?

這就是一種公式思維,用數(shù)學(xué)公式,來(lái)表達(dá)要素之間的連接關(guān)系,進(jìn)而關(guān)聯(lián)地看問(wèn)題和數(shù)據(jù)。

3. 合乎情理嗎

人的天性容易被那些超乎尋常的事物所吸引,不管是媒體上的信息還是很多報(bào)告,常常也會(huì)因?yàn)樾枰咙c(diǎn)而制造一些異乎尋常的數(shù)據(jù)。

面對(duì)數(shù)據(jù)的時(shí)候,可以嘗試將數(shù)據(jù)放在更大的時(shí)空來(lái)考量。因?yàn)楦蟮臅r(shí)空提供了基本的信息量,也就是常識(shí)。

對(duì)于關(guān)心的領(lǐng)域,要有足夠的常識(shí)和判斷力,判斷力到了一定程度,有一些坑,可能在不經(jīng)意間就已經(jīng)繞過(guò)去了。

4. 保持敬畏之心

我們的知識(shí)、智慧所限,我們能試圖破解的系統(tǒng)是有復(fù)雜度上限的。

面對(duì)看起來(lái)非??陀^的數(shù)據(jù),我們能做的就是猜測(cè)、驗(yàn)證、迭代,做任何決策的時(shí)候,始終要保持謙卑和敬畏之心。

 

本文由 @一丁 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 好文,受教~

    來(lái)自北京 回復(fù)
  2. 貸款不良率那個(gè)例子,如果不良率下降是因?yàn)楸P(pán)子做大了個(gè)人覺(jué)得也可以吧。畢竟如果盤(pán)子做大了不良金額應(yīng)該也會(huì)變大,如果不良率下降了那么表示不良金額的增長(zhǎng)相比貸款余額增長(zhǎng)要小

    來(lái)自江蘇 回復(fù)
    1. 但是所謂不良是逾期90天以上,也就是說(shuō),盤(pán)子做大了,但是不良金額需要過(guò)一段時(shí)間才能顯現(xiàn)。

      來(lái)自上海 回復(fù)
  3. 確實(shí),有時(shí)候說(shuō)話也是一樣的,幾乎、大概、較為這種不確定但有好像是肯定性的話語(yǔ),也基本不可信

    回復(fù)
    1. 數(shù)據(jù)思維的第一步就是用數(shù)字量化,幾乎、大概、較為,那究竟是百分之多少的可能呢?如何量化這個(gè)可能性?這個(gè)量化過(guò)程是否有依據(jù)呢?

      來(lái)自上海 回復(fù)
  4. 我們的知識(shí)、智慧所限,我們能試圖破解的系統(tǒng)是有復(fù)雜度上限的。

    來(lái)自中國(guó) 回復(fù)
    1. 通過(guò)持續(xù)訓(xùn)練,可以不斷逼近上限。

      來(lái)自上海 回復(fù)
  5. 所以還是得有篩選材料的能力,不然就會(huì)受到欺騙

    來(lái)自河北 回復(fù)
    1. 一方面是篩選,搞清楚來(lái)龍去脈,另一方面是相互驗(yàn)證,看是否存在邏輯矛盾。

      來(lái)自上海 回復(fù)
  6. 直接就不能相信那些數(shù)據(jù),還是根據(jù)自己的判斷為主要了,別人給的數(shù)據(jù),不可信。

    來(lái)自中國(guó) 回復(fù)
    1. 也不能太極端,主要是拿到數(shù)據(jù)后,要了解數(shù)據(jù)源、加工邏輯、結(jié)合自己的常識(shí)進(jìn)行判斷,不能輕易相信,當(dāng)然一概不信也不可取。

      來(lái)自上海 回復(fù)
  7. 有的時(shí)候一些文章的標(biāo)題也會(huì)出現(xiàn)這種數(shù)據(jù)性的欺騙,引導(dǎo)讀者點(diǎn)開(kāi)

    來(lái)自山東 回復(fù)
    1. 小編也有KPI啊。

      來(lái)自上海 回復(fù)
  8. 前段時(shí)間被“上海復(fù)工率達(dá)到百分之九十”給騙了,說(shuō)是被騙,其實(shí)就是文字游戲而已。

    來(lái)自中國(guó) 回復(fù)
    1. 沒(méi)有統(tǒng)計(jì)口徑的數(shù)字,都是耍流氓。

      來(lái)自上海 回復(fù)
专题
11725人已学习12篇文章
本专题的文章分享了营销增长指南。
专题
16122人已学习12篇文章
数据中台是处于业务前台和技术后台的中间层。本专题的文章分享了如何搭建数据中台。
专题
14351人已学习13篇文章
数据仓库是所有产品的数据中心,公司体系下的所有产品产生的所有数据最终都流向数据仓库。本专题的文章分享了什么是数据仓库和如何搭建数据仓库。
专题
13786人已学习13篇文章
广告是互联网的最大的商业模式,已经逐步形成一个巨大的行业,整个互联网广告也在持续增长中。本专题的文章分享了关于对互联网广告的思考与分析
专题
16941人已学习16篇文章
为达成业务运营目标,合理使用数据工具指导运营决策的过程,就是数据化运营。本专题的文章分享了数据化运营指南。