什么是“軟數(shù)據(jù)”?

0 評(píng)論 412 瀏覽 0 收藏 7 分鐘
🔗 产品经理在不同的职业阶段,需要侧重不同的方面,从基础技能、业务深度、专业领域到战略规划和管理能力。

軟數(shù)據(jù),那些不易量化、依賴主觀判斷的信息,如消費(fèi)者信心指數(shù)和專家預(yù)測(cè),與硬數(shù)據(jù)如GDP增長(zhǎng)率和失業(yè)率形成鮮明對(duì)比。本文深入剖析軟數(shù)據(jù)的來(lái)源、特點(diǎn)及其在數(shù)據(jù)分析中的關(guān)鍵作用,探討如何將這些易變、主觀的信息轉(zhuǎn)化為可信賴的洞察。

由比爾恩門(mén)編寫(xiě)的《數(shù)據(jù)湖倉(cāng)》這本書(shū)中,除了提到數(shù)據(jù)湖倉(cāng)是下一代數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖,目的是滿足復(fù)雜多變的現(xiàn)代信息系統(tǒng)的需求。還提到了數(shù)據(jù)質(zhì)量的重要性,通過(guò)檢查輸入錯(cuò)誤、解決鍵的非兼容性問(wèn)題以及維護(hù)良好的文檔編制來(lái)提高數(shù)據(jù)的質(zhì)量和可信度。

進(jìn)入到數(shù)據(jù)湖倉(cāng)的數(shù)據(jù)本質(zhì)上來(lái)說(shuō)都是可信的,如果數(shù)據(jù)不真實(shí)不準(zhǔn)確,理論來(lái)說(shuō)就不應(yīng)該把這些數(shù)據(jù)存入到數(shù)據(jù)湖倉(cāng)中。

這里面就提到一個(gè)概念,如果我們接觸到結(jié)構(gòu)化數(shù)據(jù)、文本數(shù)據(jù)和物聯(lián)網(wǎng)生成的數(shù)據(jù)時(shí),通常不會(huì)對(duì)數(shù)據(jù)的真實(shí)性產(chǎn)生質(zhì)疑,這部分?jǐn)?shù)據(jù)容易量化、約定俗成的、且有固定的計(jì)算公式的數(shù)據(jù)就統(tǒng)稱為“硬數(shù)據(jù)”(hard data)

當(dāng)然,除了這部分可信的數(shù)據(jù)外,絕大部分?jǐn)?shù)據(jù)是需要進(jìn)行真實(shí)性的確認(rèn),我們就稱為“軟數(shù)據(jù)”(soft data)。軟數(shù)據(jù)是指那些不易量化、沒(méi)有固定計(jì)算公式、主要依賴于主觀判斷和觀察得到的信息和數(shù)據(jù)。這些數(shù)據(jù)通常來(lái)自調(diào)查問(wèn)卷、專家評(píng)估、媒體報(bào)道等,與硬數(shù)據(jù)相對(duì),后者主要包括官方統(tǒng)計(jì)數(shù)據(jù)、財(cái)務(wù)報(bào)表等具體的數(shù)字信息。比爾恩門(mén)認(rèn)為軟數(shù)據(jù)主要是指來(lái)自電子表格、互聯(lián)網(wǎng)或政府的數(shù)據(jù)。這部分?jǐn)?shù)據(jù)需要對(duì)其真實(shí)性、完整性進(jìn)行確認(rèn),確認(rèn)完成后才能存入湖倉(cāng)的基礎(chǔ)數(shù)據(jù)中。

從書(shū)中去理解什么是軟數(shù)據(jù)確實(shí)有點(diǎn)費(fèi)勁,原因就是太多的名詞導(dǎo)致我們?cè)诟拍钌先菀谆煜?,其次是這些名詞定義如果沒(méi)有普及拉通的前提下,很容易雞同鴨講,無(wú)法讓對(duì)方理解你到底在表達(dá)什么意思。那么接下來(lái)我就嘗試著理解一下,比爾恩門(mén)對(duì)于軟數(shù)據(jù)來(lái)源的定義:

1,電子表格數(shù)據(jù)。我們經(jīng)常會(huì)將電子表格數(shù)據(jù)作為導(dǎo)入導(dǎo)出,初始化到系統(tǒng)中去。但是,我們并不能確定電子表格里面的數(shù)據(jù)是否真實(shí)可靠,因?yàn)樘顚?xiě)的過(guò)程中,你并不清楚填寫(xiě)的人到底有沒(méi)有填寫(xiě)對(duì)應(yīng)正確的填寫(xiě)內(nèi)容。

其次,電子表格還存在一個(gè)問(wèn)題,就是沒(méi)有可用可靠的元數(shù)據(jù)。雖然表格包含列和行,但是很難對(duì)表格的上下文情景進(jìn)行關(guān)聯(lián)。比方說(shuō)1977,是一個(gè)數(shù)字,但是它到底代表1977年,還是1977個(gè),還是1977萬(wàn)……所以,表格里面的1977如果缺少了上下文情景,則毫無(wú)意義。所以我們?cè)谔崛∥谋緮?shù)據(jù)的時(shí)候,通過(guò)文本ETL,一個(gè)關(guān)鍵點(diǎn)就是能否獲取數(shù)據(jù)的上下文情境。

2,互聯(lián)網(wǎng)數(shù)據(jù)。則更是五花八門(mén)了,雖然現(xiàn)在對(duì)于互聯(lián)網(wǎng)數(shù)據(jù)以及規(guī)避了很多涉及到個(gè)人隱私的問(wèn)題,但是大部分我們獲取到互聯(lián)網(wǎng)的數(shù)據(jù)都是一次性的,如果互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行了更新,那么這部分?jǐn)?shù)據(jù)的時(shí)效性則無(wú)法保證?;ヂ?lián)網(wǎng)的數(shù)據(jù)由于沒(méi)有準(zhǔn)確的來(lái)源,或者由于帶有很強(qiáng)的個(gè)人主觀性,往往就會(huì)被其他人質(zhì)疑。

3,政府?dāng)?shù)據(jù)。政府?dāng)?shù)據(jù)為什么也被納入到“軟數(shù)據(jù)”里面了呢?政府?dāng)?shù)據(jù)一般都應(yīng)該是可信的數(shù)據(jù),但是我理解比爾恩門(mén)想要表達(dá)的就是這類數(shù)據(jù),實(shí)際也存在一定的欺騙性,或者說(shuō)這類數(shù)據(jù)也有可能失真。

比方說(shuō)披露的某企業(yè)的資產(chǎn)現(xiàn)金流在某季度大幅的增長(zhǎng),我們?nèi)绻R(shí)單方面看到這些數(shù)據(jù),或許會(huì)認(rèn)為該企業(yè)的生產(chǎn)經(jīng)營(yíng)狀況相比較之前是有所增長(zhǎng)的。雖然這個(gè)結(jié)果也是真實(shí)的,但是往往我們忽略了整個(gè)財(cái)報(bào)隱藏的一些問(wèn)題?;蛟S該企僅僅只是通過(guò)變賣固定資產(chǎn),變賣手頭上的一些資產(chǎn)導(dǎo)致的現(xiàn)金流增長(zhǎng),實(shí)際的主營(yíng)業(yè)務(wù)收入還是持續(xù)下降的。

從我們對(duì)待數(shù)據(jù)的真實(shí)性角度來(lái)看,在數(shù)據(jù)進(jìn)入湖倉(cāng)之前,都應(yīng)該進(jìn)行確認(rèn),它們的可信度。從“軟數(shù)據(jù)”到“硬數(shù)據(jù)”的過(guò)程,一定是去偽存真的過(guò)程。

  • 軟數(shù)據(jù)是如何進(jìn)行計(jì)算的,究竟進(jìn)行了哪些計(jì)算?
  • 在收集和計(jì)算的過(guò)程中,選擇了哪些數(shù)據(jù),排除了哪些數(shù)據(jù)?
  • 什么時(shí)候收集的數(shù)據(jù),數(shù)據(jù)什么時(shí)候獲取的?又計(jì)劃在什么時(shí)候更新的?
  • 在互聯(lián)網(wǎng)上找到的數(shù)據(jù),它的來(lái)源是什么?
  • 誰(shuí)進(jìn)行了計(jì)算?在哪里進(jìn)行了計(jì)算?

最后可以舉一個(gè)簡(jiǎn)單的例子,對(duì)軟數(shù)據(jù)和硬數(shù)據(jù)進(jìn)行一個(gè)概念上的定義。一個(gè)股市的投資者和分析師通常會(huì)結(jié)合軟數(shù)據(jù)和硬數(shù)據(jù)來(lái)做出決策。例如,在評(píng)估股市趨勢(shì)時(shí),除了關(guān)注公司的財(cái)報(bào)數(shù)據(jù)(硬數(shù)據(jù)),也會(huì)參考市場(chǎng)情緒、行業(yè)趨勢(shì)等(軟數(shù)據(jù))。

總之,軟數(shù)據(jù)雖然存在局限性,但在數(shù)據(jù)分析中扮演著重要的角色。理解軟數(shù)據(jù)的特點(diǎn)和局限性,能幫助我們更好地解讀數(shù)據(jù),做出決策。

本文由人人都是產(chǎn)品經(jīng)理作者【老司機(jī)聊數(shù)據(jù)】,微信公眾號(hào):【老司機(jī)聊數(shù)據(jù)】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!