自助機器學習平臺——Amazon SageMaker Canvas測評
編輯導語:作為一款機器學習平臺,Amazon SageMaker Canvas是否真的為數據分析師、業(yè)務分析師等崗位提供了更加智能化的數據分析路徑?本篇文章里,作者就對這款0代碼機器學習智能工具做了體驗測評,一起來看。
身邊有很多寫SQL很厲害的數據分析人員,數據治理好了、對數據倉庫、業(yè)務需求都很熟悉,因為對機器學習算法、數據挖掘模型不是很熟悉,沒法獨立產出更高階的分析結果。
哪怕厲害的分析師自己花費九牛二虎之力,做出了模型,還要對模型不斷地調優(yōu),一趟操作下來,也累得夠嗆。
能否在沒有算法工程師支持的情況下,做模型訓練和特征識別,快速調整策略呢?
最近體驗了 Amazon SageMaker Canvas?這樣一款人人自助式機器學習工具,我找到了答案。
一、產品體驗
1. 數據集選擇和介紹
筆者使用了Kaggle的公開的銀行數據集。
包含了14個特征:序號、客戶ID、名字、信用分、地區(qū)、性別、年齡、保有期、余額、購買的產品數量、是否有信用卡、是否活躍用戶、固定工資、是否正在從銀行中取錢。
其中,需要構建的預測模型是:是否將會從銀行中取出錢。
基于該數據集,筆者完整地體驗了 Amazon SageMaker Canvas?數據集管理、建模、預測的流程。
2. 導入數據和預覽
在導入了數據集之后,系統(tǒng)就給了一些特征提示。
也可以在此處對特征值進行初步的篩選,缺失值、類型不匹配、唯一值等,還可以初步判斷特征和目標特征之間的線性相關關系、影響因子。
給出就給用戶一些特征權重的提示,能夠快速地調整選中的特征。
比如一些非關鍵特征:Surname、CustomerId,就被我去掉了。這樣,也適當減少不必要的計算量,提高模型構建速度。
3. 快速構建和標準構建
系統(tǒng)提供了兩種構建模式:標準模式、快速模式。
快速構建模型模式,模型構建速度更快,精確度則要低一些。標準模式則反之,模型構建耗時更多,精準度則要高一些。
4. 模型構建結果
模型的預測準確率。
模型訓練完,在概覽頁可以看到預測的精準度為87.714%,也可以看到各個特征的影響值。
在得分頁,可以看到具體的預測準確數和錯誤數。
點擊高級指標,也看到不同結果,模型的準確度、精確度、召回值、AUC值。
5. 利用模型進行預測
模型構建完成后,可以利用模型進行預測對單個數據進行預測。
也可以對數據集進行預測,系統(tǒng)會給出可能性。
二、應用前景介紹
筆者所在的領域,是直播領域。用戶運營、數據分析師們日常會對投放轉化、用戶活躍、用戶留存、用戶召回率這些核心指標日常關注。
哪些特征的用戶的增加和流失,對平臺的活躍、營收指標影響巨大。
場景1:廣告投放
互聯(lián)網內容領域,廣告投放對保持日活、增加營收的影響非常巨大。
通過廣告投放獲取的這波新用戶,是否具有消費潛力呢?要用什么樣的內容做用戶承接,通過什么關鍵路徑能夠實現留存和轉化呢?
為了提高投放效果,算法部門會基于歷史的用戶數據訓練用戶留存、消費預測模型。
場景2:潛在流失用戶挽留
具備什么樣行為特征的是高潛流失用戶呢?在什么時間節(jié)點對這些潛在流失用戶進行召回、挽留,能夠提高留存率,提高拉活率呢?
給出清晰的流失用戶定義后,分析師和算法部門,可以構建一套直播用戶流失預測模型。
基于模型,提取流失用戶的特征,利用這些特征對用戶進行挽留活動。
場景3:KA用戶分析和運營
KA用戶是直播行業(yè)里的重要運營和維護對象。
平臺新來了一個用戶,該用戶能否成為成為平臺營收的增長點呢?是否要在早期階段進行服務的提升和關系維護呢?
在直播場景里,預測模型將能大大提升精細化運營的ROI。
三、感觸比較深的點
1. 預覽數據
高質量的數據是數據分析和挖掘的基礎。
導入數據后,進行構建后,數據分析師能快速地了解數據的大體質量,不同特征的數據類型,有無缺失值,均值、眾數等信息,大大減少了因為數據質量問題引發(fā)的后續(xù)的問題。
2. 構建后的簡單特征關聯(lián)度分析
通常情況下,特征的選取,是基于業(yè)務經驗,系統(tǒng)也對這方面給出了快捷的特征影響分析,幫助分析師能篩除不必要的特征,加快模型構建速度。
模型構建結束后,系統(tǒng)也基于 KernelShap 給出排名前十的影響模型預測結果的特征。
數據分析的同學,可以將更多的精力放在對關鍵特征、關鍵用戶進行AB實驗。
因為本人不具備算法模型構建的技能,所以Studio的部分,未進行深入體驗。
四、其他體驗
1. 視覺層面的感受
視覺層面有兩個特點:簡潔,不花哨;扁平化,不枯燥。
對比一些廠商的工具,可能因為產品調性問題,不會特別在意這些細節(jié)。
2. 交互層面
交互層面,也是比較便捷。在提醒方面,也是做得很好的。
操作指引給出了比較圖形化的解釋,和介紹中的很多點,都是有對應關系的。
比如:清理和分析數據并獲得有關估算模型精度的指標,識別訓練數據集中最具影響力的字段。
在導入了數據集之后,系統(tǒng)就給了我一些提示。
在預構建時,就給用戶一些特征權重的提示。
3. 功能層面
模型管理的流程是:導入數據集 → 數據集自動檢測 → 預構建(prebuild)→ 構建 → 預測 → 導出/共享。
在上文提到的交互提示下,操作起來沒有任何難度。
模型構建完成后,也能方便地看到構建的細節(jié),也能更數據科學家和算法工程師溝通,將模型構建的過程、腳本等等,都能進行共享,業(yè)務分析師職責范圍內的工作難度被大大降低。
五、總結和感受
我覺得 Amazon SageMaker Canvas?這款產品擁有黑科技、定位清晰,緊盯目標,有邊界感。
將復雜繁瑣的特征工程、模型構建的過程進行產品化,為分析師解決了 80% 的常見問題,大大提高了效率。
剩余的、難搞的、但是也同樣重要的模型調優(yōu),也可以跟數據科學家和算法工程師們進行協(xié)同。
數據分析師們將能大大地提升自工作效率,將更多的精力放到業(yè)務的驅動上。
作者:數據產品小lee;公眾號:樂說樂言
本文由 @數據產品小lee 原創(chuàng)發(fā)布于人人都是產品經理,未經許可,禁止轉載
題圖來自Unsplash,基于 CC0 協(xié)議。
看了博主幾乎所有文章,讓我一個想轉數據產品的人十分受用,不知道博主有聯(lián)系方式嗎,可以咨詢下一些問題嗎?
可以關注同名公眾號哈~
看了文章數據分析,感覺Amazon SageMaker Canvas這款數據分析工具還蠻實用的。
嗯,我個人感覺也是這樣,解放了不少工作,可以多了解下~