數(shù)據(jù)挖掘:數(shù)據(jù)角度沙里淘金,重塑數(shù)字化轉(zhuǎn)型
在數(shù)字化轉(zhuǎn)型的浪潮中,企業(yè)積累了海量的數(shù)據(jù),但如何從這些數(shù)據(jù)中提取價值,實現(xiàn)真正的降本增效,成為許多企業(yè)面臨的難題。本文從數(shù)據(jù)挖掘的角度出發(fā),深入探討了數(shù)據(jù)挖掘的定義、價值以及實施步驟,供大家參考。
一直有記錄、分析問題的習(xí)慣,但最近很多事情疊加在一起,反倒讓自己有些迷茫,感覺快被各種數(shù)據(jù)淹沒、溺亡。看著滿滿一墻壁、疊加在一起的所有問題紙張,我猛然發(fā)現(xiàn),最近關(guān)注的東西太多了,需要【精簡】。
最核心的那個問題是什么,最緊迫要解決的問題是什么?一下子從一堆的思維紙張中,取出來1張,心也就穩(wěn)定了。
數(shù)字化轉(zhuǎn)型實現(xiàn)業(yè)務(wù)數(shù)字化后,后面的路又該如何走?上了一堆的系統(tǒng),OA、HR、ERP、MES、PLM、QMS、WMS、TMS、車間管理、數(shù)字大屏…也不斷聽到技術(shù)部反饋,我們的數(shù)據(jù)存儲在直線上升,似乎數(shù)據(jù)成為一種累贅。
降本增效一直是企業(yè)的追求,流程再造是最佳的實踐方案,但走到數(shù)字化的階段,有些拔劍四顧心茫然。這時候,數(shù)據(jù)挖掘就該閃亮登場了。
01 什么是數(shù)據(jù)挖掘?
數(shù)據(jù)挖掘(Data Mining)是從大量的、不完整的、有噪聲的、模糊的數(shù)據(jù)集中,提取隱含在其中的、事先不知道的、但有潛在有用信息和知識的過程。
數(shù)據(jù)挖掘就像沙里淘金,從一大堆看似普通的數(shù)據(jù)里,找到真正有價值的信息。
比如:生產(chǎn)制造企業(yè)從所有的生產(chǎn)數(shù)據(jù)中去挖掘降本增效的切入點;銷售型企業(yè)從所有的銷售記錄、售前活動、輿情平臺、售后服務(wù)去找尋新的增長點。
被挖掘的數(shù)據(jù)源存在很多的不確定性,需要應(yīng)用數(shù)據(jù)清洗,提高數(shù)據(jù)質(zhì)量;數(shù)據(jù)挖掘成果存在不確定性、未知性,需要依賴數(shù)據(jù)挖掘模型,提高產(chǎn)出概率。
在這個不確定性較高的年代,存款就是個人的底氣。也常有販賣焦慮型的文章,提醒我們該極限存錢。我們不那么焦慮,但可以試著來分析一下我們該如何存錢?
數(shù)據(jù)積累:收集我們所有的消費記錄。盡可能找到所有的相關(guān)的記錄,把收支相關(guān)的所有數(shù)據(jù)集中起來,確??吹较鄬Ω鼮橥暾娜病?/p>
比如購物記錄、吃飯付款記錄、消費娛樂記錄、家庭繳費記錄;收集我們所有的收入記錄,比如工資,自媒體收入,活動收入,優(yōu)惠劵,薅羊毛群等。
找規(guī)律:進行各種匯總計算,比如總收入,總支出,吃飯支出,娛樂支出,購物支出,房貸支出,網(wǎng)貸支出…
說一個現(xiàn)狀,身邊很多年輕人都或多或少的遭受了網(wǎng)貸虐待。上傳身份證,電話號碼綁定,支付寶或微信綁定,人臉識別,5分鐘不到,大幾千額度貸款就下放下來了,相比于苦哈哈等一個月的工資,這個太容易了!加上數(shù)字錢的不敏感、掃碼支付的便捷,網(wǎng)貸的龜殼就這么背上了,甚至很大一部人最開始都只是想著過個橋、騰一下時間。慢慢的次數(shù)多了,額度多了,很多時候都是背不住了,才捅到父母那邊,嚇得很多老一輩天都垮了。這不是怕金額多,更多的是怕防不勝防,是怕無敵洞。
可以計算出入(堵兩頭的方式),確定中間是否有漏洞,賺了8K,花了1W,中間2K哪里來的?可以計算占比,吃飯只占花銷總體的20%,那其他的花銷是真的有必要?可以慎重審視;可以對比趨勢,連著3個月來花銷在直線上升,這是為啥呢?
分析與執(zhí)行:找到原因,找到路徑,然后去執(zhí)行。雖然極限存錢這個概念很極端,但是找到所有不利的地方,全都改良,這或許是個很好的開始。
作為曾經(jīng)的月光族,第一個月下定決心存錢,其實只存了200,金額并沒有很多,但是卻讓我在接下來一個月妥善的應(yīng)對了1次人情客往。我更加確定,人生并不是天注定,更多是自己選擇的。生死不可控,生死之間的事,可以多點把控。
02 為什么要數(shù)據(jù)挖掘?
數(shù)據(jù)挖掘的核心目的是把數(shù)據(jù)變成【答案】。雖然數(shù)據(jù)挖掘像大海里撈針,但撈到的針能幫助賺錢、省時間、防風(fēng)險,甚至預(yù)測未來。
數(shù)據(jù)挖掘可通過數(shù)據(jù)鏈路分析,從流量到留量的轉(zhuǎn)化,挖掘更多高價值 用戶,降低更多時間耽誤,從而精準賺錢。
通過審批流分析,消除審核節(jié)點無故停留,提升效率;通過供應(yīng)鏈分析、庫存分析、生產(chǎn)拉動分析,降低庫存占用,提高庫存周轉(zhuǎn);通過用戶瀏覽、購買行為,助力推薦系統(tǒng),貢獻更多營收。
數(shù)據(jù)挖掘通過算法提效、自動化工具,實現(xiàn)自動化決策與流程優(yōu)化,從而高效省時間。
特斯拉利用生產(chǎn)數(shù)據(jù)挖掘優(yōu)化生產(chǎn)線節(jié)拍,將 Model Y 的生產(chǎn)周期從 20 小時縮短至 10 小時。
數(shù)據(jù)挖掘通過風(fēng)險預(yù)測模型和安全防護技術(shù),構(gòu)建安全屏障,從而把控風(fēng)險,做好風(fēng)險防御。
螞蟻集團通過分析用戶行為、設(shè)備指紋等數(shù)據(jù),構(gòu)建實時反欺詐系統(tǒng),攔截 99.9% 的惡意交易,每年挽回損失超百億元
數(shù)據(jù)挖掘通過時間序列分析、機器學(xué)習(xí)模型,進行趨勢預(yù)測,從而塑造未來。
通用電氣(GE)利用傳感器數(shù)據(jù)預(yù)測飛機發(fā)動機故障,將計劃外停機時間減少 70%,每年節(jié)省維護成本 20 億美元。
數(shù)據(jù)挖掘是信息時代的「指南針」。
對企業(yè),可以省錢(減少試錯成本)、賺錢(精準營銷)、防風(fēng)險(比如詐騙檢測);對個人,讓生活更智能(推薦音樂、電影)、更安全(盜刷預(yù)警)、更健康(智能手環(huán)分析睡眠數(shù)據(jù));對社會,可以預(yù)測疫情擴散、優(yōu)化城市交通、甚至幫助科學(xué)家發(fā)現(xiàn)新藥。
03 如何做數(shù)據(jù)挖掘?
數(shù)據(jù)挖掘六大核心步驟:明確業(yè)務(wù)目標、數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)建模、模型評估、模型驗證優(yōu)化。
類似做菜的流程:明確吃什么(明確業(yè)務(wù)目標)、準備食材(數(shù)據(jù)采集)、洗菜切菜(數(shù)據(jù)預(yù)處理)、炒菜(數(shù)據(jù)建模)、試吃調(diào)整(模型評估)、最后上桌(模型驗證優(yōu)化)。
1?? 明確業(yè)務(wù)目標:確定解決什么問題
問題越聚焦、越具體,數(shù)據(jù)挖掘越有效,避免大海撈針。
比如:超市老板想:【怎么讓顧客多買商品?】具象為找到【經(jīng)常被一起購買的商品組合】,調(diào)整貨架位置。
2?? 數(shù)據(jù)采集:食材從哪里來
巧婦難為無米之炊。要能夠一桌好菜上桌,豐盛食材必不可少。數(shù)據(jù)越豐富、越完整、質(zhì)量越高,挖掘結(jié)果越精準??伤鸭瘮?shù)據(jù)庫信息(訂單記錄、用戶信息)、日志信息(網(wǎng)站點擊、App使用行為)、傳感器信息(智能手環(huán)的心率數(shù)據(jù))、外部數(shù)據(jù)(天氣、社交媒體評論)等。
3?? 數(shù)據(jù)預(yù)處理:洗菜、切菜、去爛葉
做菜要先備菜。初始收集的數(shù)據(jù)常臟亂差(缺失、重復(fù)、錯誤),需要進行數(shù)據(jù)清洗。常見操作如:
- 清洗:刪除年齡填“-30歲”的異常值。
- 補全:用平均值填充缺失的身高數(shù)據(jù)。
- 轉(zhuǎn)換:把“男/女”變成數(shù)字0/1,方便算法計算。
- 降維:100個用戶特征中,只保留與“購買意愿”強相關(guān)的10個。
4?? 數(shù)據(jù)建模:選用合適【廚具】,開火炒菜
數(shù)據(jù)挖掘常用的算法工具包含分類(預(yù)測類別)、聚類(自動分組)、關(guān)聯(lián)規(guī)則(找組合規(guī)律)、預(yù)測(估未來數(shù)值)等。分類典型算法有決策樹、隨機森林(像多專家投票),聚類算法有K-means(按相似度分堆)等,準備好廚具。
然后開火炒菜,將數(shù)據(jù)分為訓(xùn)練集(學(xué)做菜)和測試集(試吃驗收),進行模型訓(xùn)練與微調(diào)。過程中,需要適當調(diào)整火候,如設(shè)定聚類算法中的分組數(shù)量(K值)。若模型結(jié)果不準,需要及時更換算法或者重新處理數(shù)據(jù)。
5?? 模型評估:試吃調(diào)整
菜出鍋前,需要試試咸淡,試試軟硬,適當擺盤,盡量色香味俱全。
針對數(shù)據(jù)挖掘,也需要先判斷模型準確率、誤判率、穩(wěn)定程度,確定模型的可靠程度,從而確保后續(xù)挖掘出來的結(jié)果可靠、可用、真實、有效。
評估階段,可以灰度小范圍試用,驗證切實可以解決問題,達成目標,才能準備上線。
6?? 模型驗證優(yōu)化:端餐上桌,持續(xù)改進
通過評估后,模型嵌入問題解決場景,加入生產(chǎn),生成報表,影響決策,從而解決問題、達成目標。經(jīng)驗證評估的模型,在嵌入初期,正常能夠很好解決問題。若是嵌入就出現(xiàn)問題,說明評估不足,需要撤回,重新訓(xùn)練、調(diào)整、試用、評估。
但隨著應(yīng)用時間變長,更多業(yè)務(wù)數(shù)據(jù)匯入,甚至業(yè)務(wù)本身也在不斷進化,就需要適時調(diào)整模型,持續(xù)改進。
以下是電商精準營銷的案例,期許可以幫助更好理解數(shù)據(jù)挖掘六大步驟:
- 目標:找出【高潛力用戶】,推送優(yōu)惠券提升轉(zhuǎn)化率;
- 數(shù)據(jù):用戶過去3個月的瀏覽、加購、付款、退款記錄;
- 預(yù)處理:剔除機器人賬號,將“瀏覽時長”轉(zhuǎn)換為分鐘;
- 建模:用邏輯回歸模型,預(yù)測用戶未來7天的購買概率;
- 結(jié)果:對概率高于80%的用戶發(fā)券,轉(zhuǎn)化率提升30%;
- 部署:系統(tǒng)自動每天篩選用戶并發(fā)送優(yōu)惠券。
特別提醒:
- 數(shù)據(jù)質(zhì)量 > 算法復(fù)雜度:再高級的算法也救不了垃圾數(shù)據(jù)。
- 業(yè)務(wù)理解是關(guān)鍵:不懂超市運營的人,很難發(fā)現(xiàn)「啤酒和尿布」的關(guān)聯(lián)。
- 迭代思維:數(shù)據(jù)挖掘不是一錘子買賣,需持續(xù)優(yōu)化。
總結(jié):數(shù)據(jù)挖掘 = 50%業(yè)務(wù)問題理解 + 30%數(shù)據(jù)清洗 + 20%算法建模。就像沙里淘金,大部分時間在篩沙子(處理數(shù)據(jù)),最后才能找到金子(價值)。
數(shù)據(jù)挖掘的價值不僅在于技術(shù)實現(xiàn),更在于將冰冷的數(shù)字,轉(zhuǎn)化為溫暖的商業(yè)洞察與社會價值。在這個過程中,持續(xù)迭代的模型與不斷深化的業(yè)務(wù)理解將形成正循環(huán),推動組織從 【數(shù)據(jù)驅(qū)動】 邁向 【智能決策】。
數(shù)據(jù)挖掘本質(zhì)上是認知能力的延伸,不僅解決了 【如何處理數(shù)據(jù)】 ,更回答了 【如何理解世界】。
本文由人人都是產(chǎn)品經(jīng)理作者【壹叁零壹】,微信公眾號:【壹叁零壹】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!