自助機器學(xué)習(xí)平臺——Amazon SageMaker Canvas測評
編輯導(dǎo)語:作為一款機器學(xué)習(xí)平臺,Amazon SageMaker Canvas是否真的為數(shù)據(jù)分析師、業(yè)務(wù)分析師等崗位提供了更加智能化的數(shù)據(jù)分析路徑?本篇文章里,作者就對這款0代碼機器學(xué)習(xí)智能工具做了體驗測評,一起來看。
身邊有很多寫SQL很厲害的數(shù)據(jù)分析人員,數(shù)據(jù)治理好了、對數(shù)據(jù)倉庫、業(yè)務(wù)需求都很熟悉,因為對機器學(xué)習(xí)算法、數(shù)據(jù)挖掘模型不是很熟悉,沒法獨立產(chǎn)出更高階的分析結(jié)果。
哪怕厲害的分析師自己花費九牛二虎之力,做出了模型,還要對模型不斷地調(diào)優(yōu),一趟操作下來,也累得夠嗆。
能否在沒有算法工程師支持的情況下,做模型訓(xùn)練和特征識別,快速調(diào)整策略呢?
最近體驗了 Amazon SageMaker Canvas?這樣一款人人自助式機器學(xué)習(xí)工具,我找到了答案。
一、產(chǎn)品體驗
1. 數(shù)據(jù)集選擇和介紹
筆者使用了Kaggle的公開的銀行數(shù)據(jù)集。
包含了14個特征:序號、客戶ID、名字、信用分、地區(qū)、性別、年齡、保有期、余額、購買的產(chǎn)品數(shù)量、是否有信用卡、是否活躍用戶、固定工資、是否正在從銀行中取錢。
其中,需要構(gòu)建的預(yù)測模型是:是否將會從銀行中取出錢。
基于該數(shù)據(jù)集,筆者完整地體驗了 Amazon SageMaker Canvas?數(shù)據(jù)集管理、建模、預(yù)測的流程。
2. 導(dǎo)入數(shù)據(jù)和預(yù)覽
在導(dǎo)入了數(shù)據(jù)集之后,系統(tǒng)就給了一些特征提示。
也可以在此處對特征值進行初步的篩選,缺失值、類型不匹配、唯一值等,還可以初步判斷特征和目標(biāo)特征之間的線性相關(guān)關(guān)系、影響因子。
給出就給用戶一些特征權(quán)重的提示,能夠快速地調(diào)整選中的特征。
比如一些非關(guān)鍵特征:Surname、CustomerId,就被我去掉了。這樣,也適當(dāng)減少不必要的計算量,提高模型構(gòu)建速度。
3. 快速構(gòu)建和標(biāo)準(zhǔn)構(gòu)建
系統(tǒng)提供了兩種構(gòu)建模式:標(biāo)準(zhǔn)模式、快速模式。
快速構(gòu)建模型模式,模型構(gòu)建速度更快,精確度則要低一些。標(biāo)準(zhǔn)模式則反之,模型構(gòu)建耗時更多,精準(zhǔn)度則要高一些。
4. 模型構(gòu)建結(jié)果
模型的預(yù)測準(zhǔn)確率。
模型訓(xùn)練完,在概覽頁可以看到預(yù)測的精準(zhǔn)度為87.714%,也可以看到各個特征的影響值。
在得分頁,可以看到具體的預(yù)測準(zhǔn)確數(shù)和錯誤數(shù)。
點擊高級指標(biāo),也看到不同結(jié)果,模型的準(zhǔn)確度、精確度、召回值、AUC值。
5. 利用模型進行預(yù)測
模型構(gòu)建完成后,可以利用模型進行預(yù)測對單個數(shù)據(jù)進行預(yù)測。
也可以對數(shù)據(jù)集進行預(yù)測,系統(tǒng)會給出可能性。
二、應(yīng)用前景介紹
筆者所在的領(lǐng)域,是直播領(lǐng)域。用戶運營、數(shù)據(jù)分析師們?nèi)粘ν斗呸D(zhuǎn)化、用戶活躍、用戶留存、用戶召回率這些核心指標(biāo)日常關(guān)注。
哪些特征的用戶的增加和流失,對平臺的活躍、營收指標(biāo)影響巨大。
場景1:廣告投放
互聯(lián)網(wǎng)內(nèi)容領(lǐng)域,廣告投放對保持日活、增加營收的影響非常巨大。
通過廣告投放獲取的這波新用戶,是否具有消費潛力呢?要用什么樣的內(nèi)容做用戶承接,通過什么關(guān)鍵路徑能夠?qū)崿F(xiàn)留存和轉(zhuǎn)化呢?
為了提高投放效果,算法部門會基于歷史的用戶數(shù)據(jù)訓(xùn)練用戶留存、消費預(yù)測模型。
場景2:潛在流失用戶挽留
具備什么樣行為特征的是高潛流失用戶呢?在什么時間節(jié)點對這些潛在流失用戶進行召回、挽留,能夠提高留存率,提高拉活率呢?
給出清晰的流失用戶定義后,分析師和算法部門,可以構(gòu)建一套直播用戶流失預(yù)測模型。
基于模型,提取流失用戶的特征,利用這些特征對用戶進行挽留活動。
場景3:KA用戶分析和運營
KA用戶是直播行業(yè)里的重要運營和維護對象。
平臺新來了一個用戶,該用戶能否成為成為平臺營收的增長點呢?是否要在早期階段進行服務(wù)的提升和關(guān)系維護呢?
在直播場景里,預(yù)測模型將能大大提升精細化運營的ROI。
三、感觸比較深的點
1. 預(yù)覽數(shù)據(jù)
高質(zhì)量的數(shù)據(jù)是數(shù)據(jù)分析和挖掘的基礎(chǔ)。
導(dǎo)入數(shù)據(jù)后,進行構(gòu)建后,數(shù)據(jù)分析師能快速地了解數(shù)據(jù)的大體質(zhì)量,不同特征的數(shù)據(jù)類型,有無缺失值,均值、眾數(shù)等信息,大大減少了因為數(shù)據(jù)質(zhì)量問題引發(fā)的后續(xù)的問題。
2. 構(gòu)建后的簡單特征關(guān)聯(lián)度分析
通常情況下,特征的選取,是基于業(yè)務(wù)經(jīng)驗,系統(tǒng)也對這方面給出了快捷的特征影響分析,幫助分析師能篩除不必要的特征,加快模型構(gòu)建速度。
模型構(gòu)建結(jié)束后,系統(tǒng)也基于 KernelShap 給出排名前十的影響模型預(yù)測結(jié)果的特征。
數(shù)據(jù)分析的同學(xué),可以將更多的精力放在對關(guān)鍵特征、關(guān)鍵用戶進行AB實驗。
因為本人不具備算法模型構(gòu)建的技能,所以Studio的部分,未進行深入體驗。
四、其他體驗
1. 視覺層面的感受
視覺層面有兩個特點:簡潔,不花哨;扁平化,不枯燥。
對比一些廠商的工具,可能因為產(chǎn)品調(diào)性問題,不會特別在意這些細節(jié)。
2. 交互層面
交互層面,也是比較便捷。在提醒方面,也是做得很好的。
操作指引給出了比較圖形化的解釋,和介紹中的很多點,都是有對應(yīng)關(guān)系的。
比如:清理和分析數(shù)據(jù)并獲得有關(guān)估算模型精度的指標(biāo),識別訓(xùn)練數(shù)據(jù)集中最具影響力的字段。
在導(dǎo)入了數(shù)據(jù)集之后,系統(tǒng)就給了我一些提示。
在預(yù)構(gòu)建時,就給用戶一些特征權(quán)重的提示。
3. 功能層面
模型管理的流程是:導(dǎo)入數(shù)據(jù)集 → 數(shù)據(jù)集自動檢測 → 預(yù)構(gòu)建(prebuild)→ 構(gòu)建 → 預(yù)測 → 導(dǎo)出/共享。
在上文提到的交互提示下,操作起來沒有任何難度。
模型構(gòu)建完成后,也能方便地看到構(gòu)建的細節(jié),也能更數(shù)據(jù)科學(xué)家和算法工程師溝通,將模型構(gòu)建的過程、腳本等等,都能進行共享,業(yè)務(wù)分析師職責(zé)范圍內(nèi)的工作難度被大大降低。
五、總結(jié)和感受
我覺得 Amazon SageMaker Canvas?這款產(chǎn)品擁有黑科技、定位清晰,緊盯目標(biāo),有邊界感。
將復(fù)雜繁瑣的特征工程、模型構(gòu)建的過程進行產(chǎn)品化,為分析師解決了 80% 的常見問題,大大提高了效率。
剩余的、難搞的、但是也同樣重要的模型調(diào)優(yōu),也可以跟數(shù)據(jù)科學(xué)家和算法工程師們進行協(xié)同。
數(shù)據(jù)分析師們將能大大地提升自工作效率,將更多的精力放到業(yè)務(wù)的驅(qū)動上。
作者:數(shù)據(jù)產(chǎn)品小lee;公眾號:樂說樂言
本文由 @數(shù)據(jù)產(chǎn)品小lee 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于 CC0 協(xié)議。
看了博主幾乎所有文章,讓我一個想轉(zhuǎn)數(shù)據(jù)產(chǎn)品的人十分受用,不知道博主有聯(lián)系方式嗎,可以咨詢下一些問題嗎?
可以關(guān)注同名公眾號哈~
看了文章數(shù)據(jù)分析,感覺Amazon SageMaker Canvas這款數(shù)據(jù)分析工具還蠻實用的。
嗯,我個人感覺也是這樣,解放了不少工作,可以多了解下~