大數(shù)據(jù):商業(yè)革命與科學(xué)革命
什么叫大數(shù)據(jù)?
“大數(shù)據(jù)”是“數(shù)據(jù)化”趨勢下的必然產(chǎn)物!數(shù)據(jù)化最核心的理念是:“一切都被記錄,一切都被數(shù)字化”,它帶來了兩個(gè)重大的變化:一是數(shù)據(jù)量的爆炸性 劇增,最近2年所產(chǎn)生的數(shù)據(jù)量等同于2010年以前整個(gè)人類文明產(chǎn)生的數(shù)據(jù)量總和;二是數(shù)據(jù)來源的極大豐富,形成了多源異構(gòu)的數(shù)據(jù)形態(tài),其中非結(jié)構(gòu)化數(shù)據(jù) (包括語音、視頻、圖像等)所占比例逐年增大。
牛津大學(xué)互聯(lián)網(wǎng)研究所維克托·邁爾-舍恩伯格教授指出,“大數(shù)據(jù)”所代表的是當(dāng)今社會(huì)所獨(dú)有的一種新型的能力——以一種前所未有的方式,通過對海量數(shù)據(jù)進(jìn)行分析,獲得有巨大價(jià)值的產(chǎn)品和服務(wù),或深刻的洞見①。
這種“前所未有的”巨大價(jià)值和深刻洞見,并不僅僅來自于單一數(shù)據(jù)集量上的變化,而且是不同領(lǐng)域數(shù)據(jù)集之間深度的交叉關(guān)聯(lián),可稱之為“跨域關(guān)聯(lián)”。譬 如微博上的內(nèi)容和社交關(guān)系,F(xiàn)lickr上的圖片共享,手機(jī)通訊關(guān)系,淘寶上的購物記錄等數(shù)據(jù)通過同一個(gè)用戶關(guān)聯(lián)起來;又如移動(dòng)手機(jī)定位的移動(dòng)軌跡,車載 GPS的移動(dòng)數(shù)據(jù),街旁上的簽到數(shù)據(jù),順豐物流的遞送數(shù)據(jù),智慧城市中的文本描述等數(shù)據(jù)通過同一個(gè)地點(diǎn)關(guān)聯(lián)起來。跨域關(guān)聯(lián)是數(shù)據(jù)量增大后從量變到質(zhì)變的飛 躍,是大數(shù)據(jù)巨大價(jià)值的基礎(chǔ)。
大數(shù)據(jù)會(huì)給整個(gè)社會(huì)帶來從生活到思維上革命性的變化:企業(yè)和政府的管理人員在進(jìn)行決策的時(shí)候,會(huì)出現(xiàn)從“經(jīng)驗(yàn)即決策”到“數(shù)據(jù)輔助決策”再到“數(shù)據(jù) 即決策”的變化;人們所接受的服務(wù),將以數(shù)字化和個(gè)性化的方式呈現(xiàn),借助3D打印技術(shù)和生物基因工程,零售業(yè)和醫(yī)療業(yè)亦將實(shí)現(xiàn)數(shù)字化和個(gè)性化的服務(wù);以小 規(guī)模實(shí)驗(yàn)、定性或半定量分析為主要手段的科學(xué)分支,如社會(huì)學(xué)、心理學(xué)、管理學(xué)等,將會(huì)向大規(guī)模定量化數(shù)據(jù)分析轉(zhuǎn)型;將會(huì)出現(xiàn)數(shù)據(jù)運(yùn)營商和數(shù)據(jù)市場,以數(shù)據(jù) 和數(shù)據(jù)產(chǎn)品為對象,通過加工和交易數(shù)據(jù)獲取商業(yè)價(jià)值;人類將在哲學(xué)層面上重新思考諸如“物質(zhì)和信息誰更基礎(chǔ)”“生命的本質(zhì)是什么”“生命存在的最終形態(tài)是 什么”等本體論問題……
綜上,大數(shù)據(jù)不是數(shù)據(jù)量的簡單刻畫,也不是特定算法、技術(shù)或商業(yè)模式上的發(fā)展,而是從數(shù)據(jù)量、數(shù)據(jù)形態(tài)和數(shù)據(jù)分析處理方式,到理念和形態(tài)上重大變革 的總和——大數(shù)據(jù)是基于多源異構(gòu)、跨域關(guān)聯(lián)的海量數(shù)據(jù)分析所產(chǎn)生的決策流程、商業(yè)模式、科學(xué)范式、生活方式和觀念形態(tài)上的顛覆性變化的總和。
大數(shù)據(jù)的戰(zhàn)略地位
大數(shù)據(jù)被認(rèn)為是繼信息化和互聯(lián)網(wǎng)后整個(gè)信息革命的又一次高峰。云計(jì)算和大數(shù)據(jù)共同引領(lǐng)以數(shù)據(jù)為材料,計(jì)算為能源的又一次生產(chǎn)力的大解放,甚至可以與以蒸汽機(jī)的使用和電氣的使用為代表的第一次工業(yè)革命和第二次工業(yè)革命相媲美。
與提升國家競爭力及國民幸福程度密切相關(guān)的重大戰(zhàn)略都與大數(shù)據(jù)的分析和利用息息相關(guān),包括與國家安全社會(huì)穩(wěn)定相關(guān)的尖端武器制造與性能模擬實(shí)驗(yàn),群 體事件和謠言的預(yù)警和干預(yù);與國家科技能力相關(guān)的等離子即高能粒子實(shí)驗(yàn)分析,納米材料及生物基因工程;與國民經(jīng)濟(jì)繁榮相關(guān)的經(jīng)濟(jì)金融態(tài)勢感知與失穩(wěn)預(yù)測, 精準(zhǔn)營銷與智能物流倉儲(chǔ);與環(huán)境問題相關(guān)的全球氣候及生態(tài)系統(tǒng)的分析,局部天氣及空氣質(zhì)量預(yù)測;與醫(yī)療衛(wèi)生相關(guān)的個(gè)性化健康監(jiān)護(hù)及醫(yī)療方案,大規(guī)模流行病 趨勢預(yù)測和防控策略;與人民幸福生活相關(guān)的個(gè)性化保險(xiǎn)理財(cái)方案,智能交通系統(tǒng)等等。數(shù)據(jù)儲(chǔ)備和數(shù)據(jù)分析能力將成為未來新型國家最重要的核心戰(zhàn)略能力。
2012年3月29日,美國政府宣布了“大數(shù)據(jù)研究和發(fā)展倡議”,來推進(jìn)從大量的、復(fù)雜的數(shù)據(jù)集合中獲取知識和洞見的能力。該倡議涉及聯(lián)邦政府的6 個(gè)部門(國家科學(xué)基金委、國家衛(wèi)生研究院、能源部、國防部、國防部高級研究計(jì)劃局和地質(zhì)勘探局)。這些部門將投資總共超過兩億美元,來大力推動(dòng)和改善與大 數(shù)據(jù)相關(guān)的收集、組織和分析工具及技術(shù)。
2012年5月,我國召開第424次香山科學(xué)會(huì)議,這是我國第一個(gè)以大數(shù)據(jù)為主題的重大科學(xué)工作會(huì)議。中國計(jì)算機(jī)學(xué)會(huì)、通信學(xué)會(huì)等于2012年分別 成立了“大數(shù)據(jù)專家委員會(huì)”。2012年9月13日,北京航空航天大學(xué)聯(lián)合英國愛丁堡大學(xué)、英國利茲大學(xué)、香港科技大學(xué)、美國賓夕法尼亞大學(xué)、美國亞利桑 那州立大學(xué)、加拿大渥太華大學(xué)等共同組建大數(shù)據(jù)科學(xué)與工程國際研究中心。
2012年12月13日,在“中關(guān)村大數(shù)據(jù)日”活動(dòng)會(huì)上,由寬帶資本、百度、用友、中國聯(lián)通、聯(lián)想集團(tuán)、北京大學(xué)、北京航空航天大學(xué)、阿里巴巴、騰 訊等企業(yè)、高校共同發(fā)起成立了大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟,并在中關(guān)村云基地揭牌成立大數(shù)據(jù)實(shí)驗(yàn)室,該實(shí)驗(yàn)室以大數(shù)據(jù)產(chǎn)業(yè)孵化基金形態(tài)成立,致力于推動(dòng)學(xué)術(shù)界大數(shù)據(jù)創(chuàng) 新科技成果產(chǎn)業(yè)化以及為相關(guān)產(chǎn)業(yè)引導(dǎo)注入大數(shù)據(jù)科技元素。
自然科學(xué)基金委于2013年3月5日~7日,在上海同濟(jì)大學(xué)舉辦了第89屆“雙清”論壇,論壇的主題是“大數(shù)據(jù)技術(shù)與應(yīng)用中的挑戰(zhàn)性科學(xué)問題”,與會(huì)的有近十名院士。2013年6月30日,中國信息化百人會(huì)以“大數(shù)據(jù):挑戰(zhàn)與機(jī)遇”為主題,在上海召開第四次專題研討會(huì)。
大數(shù)據(jù)商業(yè)革命
傳統(tǒng)的商務(wù)智能已經(jīng)應(yīng)用了數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的技術(shù),對企業(yè)自身的數(shù)據(jù)進(jìn)行存儲(chǔ)、清洗、索引和分析,并能夠提供包括客戶價(jià)值評價(jià)、客戶滿意度評價(jià)、 服務(wù)質(zhì)量評價(jià)、營銷效果評價(jià)、市場需求評估等各種基于簡單統(tǒng)計(jì)和關(guān)聯(lián)挖掘的報(bào)表——這些統(tǒng)計(jì)結(jié)果對于企業(yè)自身評估和決策起到了重要的作用。
在商務(wù)智能時(shí)代積累起來的和數(shù)據(jù)打交道的經(jīng)驗(yàn)既是大數(shù)據(jù)新商業(yè)模式技術(shù)和理念的基礎(chǔ),又有可能束縛大數(shù)據(jù)商業(yè)革命,因?yàn)橛薪?jīng)驗(yàn)的商務(wù)智能人士會(huì)不自覺地把大數(shù)據(jù)分析庸俗化,認(rèn)為只是傳統(tǒng)商務(wù)智能針對更大規(guī)模數(shù)據(jù)集的一種平凡推廣。
大數(shù)據(jù)商業(yè)模式也可以粗略地分為1.0版本,2.0版本和3.0版本。
大數(shù)據(jù)1.0追求從數(shù)據(jù)到分析,從分析到更多更好的數(shù)據(jù),再到更深入分析這樣的正向循環(huán)。它是指企業(yè)自身的產(chǎn)品和服務(wù)產(chǎn)生了大量的數(shù)據(jù),通過對這些數(shù)據(jù)進(jìn)行深入的挖掘分析,改進(jìn)自身業(yè)務(wù),改進(jìn)后的業(yè)務(wù)吸引更多用戶或客戶,產(chǎn)生更大量的數(shù)據(jù),形成正向的循環(huán)。
亞馬遜是一個(gè)典型的例子,他們利用以“基于商品的協(xié)同過濾”為主要代表的一系列推薦算法②,幫助用戶找到他們可能喜歡的商品。百分點(diǎn)科技從事類似的 數(shù)據(jù)分析,但他們不是分析自己的銷售數(shù)據(jù),而是整合了五百多家電子商務(wù)網(wǎng)站和一百多家資訊網(wǎng)站的數(shù)據(jù),從用戶的瀏覽、收藏、點(diǎn)擊行為中猜測用戶意圖,推薦 用戶感興趣的商品和資訊③。
這些精準(zhǔn)的個(gè)性化服務(wù)的背后,是非常復(fù)雜的算法和實(shí)時(shí)大數(shù)據(jù)處理能力④。個(gè)性化推薦算法大大提高了用戶的黏度和企業(yè)的銷售額,從而產(chǎn)生了更多有價(jià)值的數(shù)據(jù),這些數(shù)據(jù)又幫助亞馬遜和百分點(diǎn)把分析做得更深入,進(jìn)一步提高自身或客戶的訪問和銷售量,產(chǎn)生更多高質(zhì)量的數(shù)據(jù)。
大數(shù)據(jù)2.0強(qiáng)調(diào)的是數(shù)據(jù)的外部性。它是指企業(yè)用自身業(yè)務(wù)產(chǎn)生的數(shù)據(jù),去解決主營業(yè)務(wù)以外的其他問題,獲得重大的價(jià)值;或者引入非企業(yè)自身業(yè)務(wù)的外 部數(shù)據(jù),來解決企業(yè)自己遇到的問題。谷歌(Google)曾利用網(wǎng)頁搜索詞的記錄,來預(yù)測流感爆發(fā)后隨時(shí)間變化的新增病例數(shù)以及實(shí)時(shí)電價(jià)⑤。
顯然,預(yù)測流感趨勢和實(shí)時(shí)電價(jià)這些需求并不包含在記錄網(wǎng)頁搜索詞的初衷中。ZestFinance有一個(gè)口號,就是一切數(shù)據(jù)都是信用數(shù)據(jù),實(shí)際上,他們大量采集用戶在社會(huì)媒體上留下的數(shù)據(jù),從這些數(shù)據(jù)中對用戶的信用進(jìn)行判斷,特別地,預(yù)測用戶拖延還貸的概率。
ZestFinance通過這種分析,能夠在低于行業(yè)平均拖延還貸率的條件下,進(jìn)行更快更低成本的貸款發(fā)放。顯然,用戶在社交媒體上產(chǎn)生的數(shù)據(jù),并 不是ZestFinance自身產(chǎn)生的,但是一樣可以服務(wù)于ZestFinance的業(yè)務(wù)。同樣,自身業(yè)務(wù)產(chǎn)生的數(shù)據(jù)可以用來服務(wù)于其他行業(yè),產(chǎn)生重大價(jià) 值。譬如淘寶的銷售記錄可以用來估計(jì)消費(fèi)價(jià)格指數(shù)(CPI),手機(jī)移動(dòng)軌跡數(shù)據(jù)可以用于交通預(yù)報(bào)和交通規(guī)劃,等等。
大數(shù)據(jù)3.0是一個(gè)尚在探索中的商業(yè)形態(tài)。它首先要求政府和行業(yè),對數(shù)據(jù)質(zhì)量、價(jià)值、權(quán)益、隱私、安全等產(chǎn)生充分認(rèn)識,出臺量化與保障措施。在此基 礎(chǔ)上,數(shù)據(jù)運(yùn)營商出現(xiàn),提供集成數(shù)據(jù)和存儲(chǔ)、計(jì)算的平臺。在此基礎(chǔ)上,形成了以加工粗?jǐn)?shù)據(jù)和已有數(shù)據(jù)產(chǎn)品,產(chǎn)生新的數(shù)據(jù)產(chǎn)品為主要活動(dòng)的數(shù)據(jù)客 (Dacker)。
個(gè)人、團(tuán)隊(duì)和企業(yè)通過數(shù)據(jù)API接口或其他方式付費(fèi)使用數(shù)據(jù)產(chǎn)品,數(shù)據(jù)客、運(yùn)營商和被加工原料所有者共同分享數(shù)據(jù)產(chǎn)品的利益。數(shù)據(jù)市場也可能應(yīng)運(yùn)而 生,數(shù)據(jù)和數(shù)據(jù)產(chǎn)品有可能像今天淘寶集市上的商品被售賣交換。于是,一種以數(shù)據(jù)/數(shù)據(jù)產(chǎn)品為輸入,數(shù)據(jù)/數(shù)據(jù)產(chǎn)品為輸出的新商業(yè)模式誕生,這種模式不同于 2B(to business)和2C(to customer)的模式——譬如一款精確位置告知實(shí)時(shí)空氣質(zhì)量的API接口(應(yīng)用程序接口),既可能被企業(yè)和政府使用,也可能被個(gè)人使用。為了區(qū)分,我 們稱這種模式為2D(to data)的商業(yè)模式⑥。新商業(yè)模式的直接后果,就是促進(jìn)學(xué)術(shù)團(tuán)體、企業(yè)和政府通過大量異質(zhì)數(shù)據(jù)和數(shù)據(jù)產(chǎn)品產(chǎn)生科學(xué)、社會(huì)、經(jīng)濟(jì)等方面的新價(jià)值。
大數(shù)據(jù)科學(xué)革命
科學(xué)界實(shí)際上比產(chǎn)業(yè)界更早意識到了大數(shù)據(jù)的巨大影響,英國的《自然》雜志在2008年9月就推出了名為“大數(shù)據(jù)”的封面專欄,講述了數(shù)據(jù)在數(shù)學(xué)、物 理、生物、工程及社會(huì)經(jīng)濟(jì)等多學(xué)科扮演的愈加重要的角色。越來越多的數(shù)據(jù)本身,在以數(shù)據(jù)為準(zhǔn)繩的研究理念指導(dǎo)以及愈發(fā)強(qiáng)大的計(jì)算能力支撐下,正在驅(qū)動(dòng)一次 科學(xué)研究方法論上的革命。
以前基于實(shí)驗(yàn)室小規(guī)??刂茖?shí)驗(yàn)的半定量甚至以定性為主的學(xué)科分支將走向基于大規(guī)模非控制數(shù)據(jù)分析的定量科學(xué),其中社會(huì)學(xué)、心理學(xué)和管理學(xué)首當(dāng)其沖。 通過數(shù)據(jù)分析,我們可以在數(shù)千萬甚至上億樣本的規(guī)模下研究宗教問題、亞文化問題、信息傳播軌跡、社會(huì)流動(dòng)性問題等,而這在以前的社會(huì)科學(xué)中是絕對不可想象 的。
首先,數(shù)據(jù)給我們提供了一個(gè)解釋現(xiàn)象的新穎視角。我們可能都記得道金斯在其飽受爭議的名著《自私的基因》中講很多自然和社會(huì)現(xiàn)象都?xì)w結(jié)于一種將自己 基因在生物界中最大可能傳播的內(nèi)在驅(qū)動(dòng)力。這類演化生物學(xué)的假設(shè)很難再高等生命中獲得直接的驗(yàn)證——難道你會(huì)承認(rèn)一段段刻骨銘心的愛情背后僅僅是出于繁殖 的目的嗎?最近的一項(xiàng)研究另辟蹊徑⑦,科學(xué)家分析了320萬手機(jī)用戶4.89億條短信和19.5億條通話記錄,根據(jù)通信頻繁程度,找出了每個(gè)人的第一好 友、第二好友等。
統(tǒng)計(jì)顯示,男性和女性從青春期直到四十多歲,第一好友往往都是一個(gè)同齡異性,女性覺醒更早,對異性的高關(guān)注度保持的時(shí)間比男性長——這個(gè)第一好友, 不言而喻,就是所愛之人。而到了50歲左右的時(shí)間,男性的第一好友往往還是一個(gè)同齡的女性(他的太太),第二好友是一個(gè)或男或女的20歲左右的年輕人(他 的子女),而女性的第一好友往往都是她的子女。這體現(xiàn)了女子很明顯地將自己的社會(huì)資本從配偶轉(zhuǎn)移到了子代。
有趣的是,男性盡管在30多歲的時(shí)候表現(xiàn)出對同齡異性特定高關(guān)注度的快速下降,但是在進(jìn)入中老年后對配偶的依賴性遠(yuǎn)遠(yuǎn)高于女性。這樣的研究當(dāng)然不能嚴(yán)格證明任何演化生物學(xué)的假說,但是卻給出了一種研究這類問題的有趣而新穎的視角。
類似地,2010年科學(xué)家通過對全英32482個(gè)行政區(qū)6500萬人口通話關(guān)系的研究發(fā)現(xiàn),電話聯(lián)系人多樣性越強(qiáng)的行政區(qū),其經(jīng)濟(jì)社會(huì)發(fā)展水平也越 高,從一個(gè)側(cè)面證明了社會(huì)資本等價(jià)于經(jīng)濟(jì)資本⑧。我們最近和印第安納大學(xué)合作,通過對8498份菜譜的分析,證明了地理文化因素比氣候因素對于飲食結(jié)構(gòu)的 形成作用更大,挑戰(zhàn)了“氣候決定飲食結(jié)構(gòu)”這一廣泛為人們接受的常識。
其次,數(shù)據(jù)給我們提供了一個(gè)繞開理論直接走向應(yīng)用的新途徑。Google分析了5000萬搜索詞,從中找到所有和流感傳播趨勢有關(guān)的搜索詞,又通過其中相關(guān)性最強(qiáng)的45個(gè)詞,利用線性回歸模型,預(yù)測流感的染病人數(shù)⑨。
Google的預(yù)測非常準(zhǔn)確,并且能夠比疾控中心早一周對實(shí)時(shí)染病情況進(jìn)行預(yù)報(bào)。我們最近分析了包括亞馬遜和Netflix在內(nèi)的4個(gè)網(wǎng)站上數(shù)百萬 用戶對各種商品的評分?jǐn)?shù)據(jù),發(fā)現(xiàn)用戶的評分存在明顯的錨定效應(yīng)⑩,也就是說,用戶在給出一個(gè)高分之后,下一次評分也偏高,在給出一個(gè)低分之后,下一次評分 也偏低。
這和我們常識中看過一部爛片之后下一部片子無論如何都不錯(cuò)正好相反——我們甚至可以推論,如果你的前任是極品,你的現(xiàn)任恐怕要受前任連累,而不是從 中獲益,當(dāng)然,這還需要大數(shù)據(jù)科學(xué)的驗(yàn)證。我們進(jìn)一步的研究顯示,如果去除掉這些心理的偏差,我們對于用戶的評分預(yù)測和推薦會(huì)變得更加精確。可以看 到,Google并沒有給出從搜索詞到疾病預(yù)測之間的某種嚴(yán)謹(jǐn)?shù)睦碚摚覀円矝]有對人們評分的心理行為給出任何理論解釋,但是通過海量數(shù)據(jù)分析得到的這些 研究結(jié)果已經(jīng)可以應(yīng)用于實(shí)際了。
大數(shù)據(jù)帶來了很多新的重要的科學(xué)問題,其中最重要的是預(yù)測。預(yù)測問題主要可以分為兩類,一是趨勢預(yù)測,二是缺失信息預(yù)測。趨勢預(yù)測是指通過事物的一些基本屬性信息和早期的態(tài)勢分析,預(yù)測事物發(fā)展的軌跡和最終影響力。
譬如通過分析社交網(wǎng)絡(luò)中注冊一個(gè)月的用戶的行為以及這些用戶與其他用戶的互動(dòng),預(yù)測哪些用戶將來會(huì)成為很有影響力的用戶;通過用戶-商品兩部分圖中 產(chǎn)品的早期表現(xiàn),例如一首新歌或一個(gè)新歌手上線一周的情況,來預(yù)測這首歌或者這個(gè)歌手有沒有可能走紅;通過一條信息早期數(shù)小時(shí)在微博網(wǎng)絡(luò)上的傳播情況,來 預(yù)測這條信息最終的影響力等等。
缺失信息預(yù)測假設(shè)我們觀察到的信息只是全部真實(shí)信息的一部分,在這個(gè)基礎(chǔ)上探討如何利用當(dāng)前信息去預(yù)測未觀察到得信息。譬如我們現(xiàn)在通過實(shí)驗(yàn)所知道 的蛋白質(zhì)之間的相關(guān)作用關(guān)系只是全部關(guān)系中很小的一部分,但是實(shí)驗(yàn)驗(yàn)證費(fèi)用昂貴,通過預(yù)測,預(yù)先判斷哪些蛋白質(zhì)之間可能有相互作用并以此指導(dǎo)實(shí)驗(yàn),能夠大 大節(jié)省實(shí)驗(yàn)成本。
又比如,新浪微博上的關(guān)注對象推薦是一種典型的缺失信息預(yù)測,因?yàn)樽龀鐾扑]的基本假設(shè)是“某甲應(yīng)該關(guān)注某乙,只不過現(xiàn)在還沒有關(guān)注”。在可預(yù)期的未來,絕大部分深入的大數(shù)據(jù)應(yīng)用,都可以轉(zhuǎn)化為某種預(yù)測問題。
文章來自:199it
大數(shù)字這個(gè)詞好流行!