但他們錯了。
“谷歌流感趨勢”不僅沒有提供流感傳播的精確描述,也無法實(shí)現(xiàn)大數(shù)據(jù)鼓吹者的美夢。這是因?yàn)?strong>,如果沒有“厚數(shù)據(jù)”(豐富的、具有前后關(guān)聯(lián)性的數(shù)據(jù),它們只能通過丟開電腦、深入實(shí)際生活才能獲得),大數(shù)據(jù)就沒有意義。電腦極客們曾經(jīng)因?yàn)椴荒苓m應(yīng)社會生活而被嘲笑,他們被告知應(yīng)該“多出去走走”。實(shí)際上,如果大數(shù)據(jù)的信徒們希望理解這個他們也在參與塑造的世界,他們真的需要多出去走走。
谷歌的失敗與算法無關(guān)
“谷歌流感趨勢”的目的是:找出人們在流感季節(jié)常用的搜索詞,然后實(shí)時跟蹤這些搜索詞的使用高峰期。這樣,谷歌就可以在新流感爆發(fā)之前發(fā)出警報(bào),而且預(yù)警時間要比官方疾病防治中心的預(yù)警時間早大約兩周。
對很多人來說,“谷歌流感趨勢”已經(jīng)成為大數(shù)據(jù)的一個典型代表,它表現(xiàn)了大數(shù)據(jù)的巨大力量。在暢銷書《大數(shù)據(jù):一場改變生活、工作和思考方式的革命》(A Revolution That Will Transform How We Live, Work and Think)中,作者維克托?邁爾?舍恩柏格(Viktor Mayer-Sch?nberger)和肯尼斯?庫克耶(Kenneth Cukier)宣稱,與政府滯后的數(shù)據(jù)相比,“谷歌流感趨勢”是更有用、更及時的流感指示器。
然而,著名的《科學(xué)》雜志本月刊登一篇文章告訴我們,自2011年8月以來,“谷歌流感趨勢”幾乎每周都會高估流感的盛行率。
而在2009年,就在“谷歌流感趨勢”推出后不久,它竟然完全沒有察覺豬流感的爆發(fā)。事實(shí)上,人們在流感季節(jié)的許多常用搜索詞與流感無關(guān),而與流感的通常爆發(fā)季節(jié)——冬季——密切相關(guān)。
許多人爭論道,“谷歌流感趨勢”的失敗緣于大數(shù)據(jù)的不成熟。這種觀點(diǎn)沒有切中要害。當(dāng)然,調(diào)整算法、提高數(shù)據(jù)收集技術(shù)將會讓下一代大數(shù)據(jù)工具變得更有效。然而,大數(shù)據(jù)鼓吹者真正的狂妄之處不在于對一套不成熟的算法過于自信,而在于盲目地相信坐在電腦屏幕前搗鼓一些數(shù)字就可以充分理解世界。
為什么需要厚數(shù)據(jù)
大數(shù)據(jù)僅僅是大量的“薄數(shù)據(jù)”,它們是通過對人們的活動和行為進(jìn)行跟蹤而獲得的。 我們最常去的地方,我們在網(wǎng)上搜索的東西,我們每天睡了多久,我們有多少聯(lián)系人,我們所聽的音樂類型等等。這些數(shù)據(jù)是通過你瀏覽器中的“cookies”、你戴在手上的FitBit腕帶或你手機(jī)上的GPS來收集的。這些信息無疑是重要的,但我們不能通過它們來獲得對人的完整理解。
為了真正地了解人,我們不久需要大數(shù)據(jù),而且需要厚數(shù)據(jù)。厚數(shù)據(jù)不僅包括事實(shí),而且包括事實(shí)的前后聯(lián)系。 比如說,美國有86%的家庭每周會喝掉6夸脫以上的牛奶,但是她們?yōu)槭裁春扰D??他們是怎么喝的?一塊包含三種顏色、繡著星星和條紋圖案的布,這是薄數(shù)據(jù);一面在風(fēng)中飄揚(yáng)的美國國旗,這是厚數(shù)據(jù)。
基于“我們做了什么”,大數(shù)據(jù)對我們進(jìn)行簡單化的理解;厚數(shù)據(jù)則試圖通過我們與周圍世界的聯(lián)系來理解我們。 只有理解人與周圍世界的聯(lián)系,人們才能從整體上認(rèn)識這個世界,這恰恰也是谷歌、facebook等公司想要做的。
理解我們這個世界
想想硅谷的那些宏偉宣言。谷歌的宗旨是“組織全球信息,使人人皆可訪問它們并從中獲益?!瘪R克·扎克伯格(Mark Zuckerberg)最近對投資者表示,在全球化和知識經(jīng)濟(jì)日益受到重視的當(dāng)今世界,F(xiàn)acebook致力于一個新的使命:“理解這個世界”。他說:“人們每天在Facebook上發(fā)布數(shù)十億條內(nèi)容和鏈接。在他們的幫助下,我們通過專門的算法機(jī)制為世界上所有事物建立最清晰的模型?!鄙踔劣幸恍┬」疽矃⑴c了“理解這個世界”。去年,Jawbone公司的副總裁耶利米?羅賓遜(Jeremiah Robison)說,他們的健康跟蹤設(shè)備Jawbone UP的目標(biāo)是“理解(人的)行為變化的科學(xué)?!?/p>
這些目標(biāo)的確很大。企業(yè)渴望更好地理解社會,這不足為怪。畢竟,了解與客戶行為及社會文化相關(guān)的信息,這對企業(yè)經(jīng)營來說是必不可少的。而且,在知識經(jīng)濟(jì)時代,這些信息本身已經(jīng)成為一種通貨,它們可以換來點(diǎn)擊率、瀏覽量和廣告收入。或者更簡單地說,它們可以換來權(quán)力。在這個過程中,如果谷歌、facebook等公司能不斷幫助我們增進(jìn)對自身的集體知識,它們獲得更多權(quán)力也是正當(dāng)?shù)?。問題在于,如果它們聲稱計(jì)算機(jī)能夠組織我們的所有數(shù)據(jù),或能夠向我們提供關(guān)于流感、健康或社會關(guān)系等各方面的完整理解,那么,它們從根本上小看了“數(shù)據(jù)”和“理解”的意義。
如果硅谷的大數(shù)據(jù)鼓吹者真想“了解世界”,那么他們不僅需要掌握大數(shù)據(jù),也需要掌握厚數(shù)據(jù) 。不幸的是,要獲得后者,他們需要丟開電腦去實(shí)地體驗(yàn)這個世界,而不是僅僅通過谷歌眼鏡(或通過facebook的虛擬現(xiàn)實(shí)設(shè)備)來觀察世界。
人們的行為情境
如果你對一個領(lǐng)域高度熟悉,有能力填補(bǔ)信息空白并想象人們的行為原因,那么“薄數(shù)據(jù)”將是有用的。換句話說,如果你能夠想象并重建人們的行為的發(fā)生情境,你所觀察到的行為才是有意義的。如果缺乏對行為情境的了解,就不可能推出任何因果關(guān)系,也不可能理解人們的行為原因。
這就是為什么研究人員在科學(xué)實(shí)驗(yàn)中要竭盡全力控制實(shí)驗(yàn)室的環(huán)境,以創(chuàng)造一個各種影響因素都被考慮在內(nèi)、徹底的人工場所。不過,真實(shí)世界并不是一個實(shí)驗(yàn)室。要確保你對陌生世界的情境有所了解,唯一的途徑是實(shí)地觀察并內(nèi)化和解釋正在發(fā)生的每一件事。
人們的背景知識
如果說大數(shù)據(jù)擅長觀察人們的行為,那么它不擅長的就是理解人們對每樣事物的背景知識。我是怎么知道每次刷牙時該用多少牙膏的?我是怎么知道何時該進(jìn)入另一個交通通道的?眨眼是表示“真有趣”還是“我的眼睛進(jìn)了東西”?這些都涉及人們的內(nèi)在能力、無意識和背景知識,它們控制著人們的大多數(shù)行為。跟周圍的事物一樣,這些不可見的背景知識只有在觀察者主動去看的情況下才能被發(fā)現(xiàn)。不過,它們卻對每個人的行為有著重要影響。它能夠解釋事物與人的聯(lián)系,以及事物對人的意義。
人類學(xué)及社會科學(xué)中有大量觀察和解釋人類行為的方法。研究人員不但觀察人的行為,而且考查他們所處的情境和他們擁有的背景知識。這些方法有一個共同的特點(diǎn):它們要求研究者深入混亂而真實(shí)的人類生活。
沒有哪一個單獨(dú)的工具能夠成為理解人類的超級武器。盡管硅谷有許多出色的發(fā)明,不過我們對任何數(shù)字技術(shù)的期望都應(yīng)該有個限度?!肮雀枇鞲汹厔荨闭嬲探o我們的是:不能僅僅問這些數(shù)據(jù)有多“大”,還要問這些數(shù)據(jù)有多“厚”。
有時,走進(jìn)真實(shí)的生活會得到更好的結(jié)果。有時,我們必須要丟下電腦。
來源:騰訊科技
收藏 已收藏 {{ postmeta.bookmark }}
點(diǎn)贊 已贊 {{ postmeta.postlike }}