自助機器學習平臺——Amazon SageMaker Canvas測評

4 評論 3974 瀏覽 10 收藏 11 分鐘

編輯導語:作為一款機器學習平臺,Amazon SageMaker Canvas是否真的為數據分析師、業(yè)務分析師等崗位提供了更加智能化的數據分析路徑?本篇文章里,作者就對這款0代碼機器學習智能工具做了體驗測評,一起來看。

身邊有很多寫SQL很厲害的數據分析人員,數據治理好了、對數據倉庫、業(yè)務需求都很熟悉,因為對機器學習算法、數據挖掘模型不是很熟悉,沒法獨立產出更高階的分析結果。

哪怕厲害的分析師自己花費九牛二虎之力,做出了模型,還要對模型不斷地調優(yōu),一趟操作下來,也累得夠嗆。

能否在沒有算法工程師支持的情況下,做模型訓練和特征識別,快速調整策略呢?

最近體驗了 Amazon SageMaker Canvas?這樣一款人人自助式機器學習工具,我找到了答案。

一、產品體驗

1. 數據集選擇和介紹

筆者使用了Kaggle的公開的銀行數據集。

包含了14個特征:序號、客戶ID、名字、信用分、地區(qū)、性別、年齡、保有期、余額、購買的產品數量、是否有信用卡、是否活躍用戶、固定工資、是否正在從銀行中取錢。

其中,需要構建的預測模型是:是否將會從銀行中取出錢。

基于該數據集,筆者完整地體驗了 Amazon SageMaker Canvas?數據集管理、建模、預測的流程。

2. 導入數據和預覽

在導入了數據集之后,系統(tǒng)就給了一些特征提示。

也可以在此處對特征值進行初步的篩選,缺失值、類型不匹配、唯一值等,還可以初步判斷特征和目標特征之間的線性相關關系、影響因子。

給出就給用戶一些特征權重的提示,能夠快速地調整選中的特征。

比如一些非關鍵特征:Surname、CustomerId,就被我去掉了。這樣,也適當減少不必要的計算量,提高模型構建速度。

3. 快速構建和標準構建

系統(tǒng)提供了兩種構建模式:標準模式、快速模式。

快速構建模型模式,模型構建速度更快,精確度則要低一些。標準模式則反之,模型構建耗時更多,精準度則要高一些。

4. 模型構建結果

模型的預測準確率。

模型訓練完,在概覽頁可以看到預測的精準度為87.714%,也可以看到各個特征的影響值。

在得分頁,可以看到具體的預測準確數和錯誤數。

點擊高級指標,也看到不同結果,模型的準確度、精確度、召回值、AUC值。

5. 利用模型進行預測

模型構建完成后,可以利用模型進行預測對單個數據進行預測。

也可以對數據集進行預測,系統(tǒng)會給出可能性。

二、應用前景介紹

筆者所在的領域,是直播領域。用戶運營、數據分析師們日常會對投放轉化、用戶活躍、用戶留存、用戶召回率這些核心指標日常關注。

哪些特征的用戶的增加和流失,對平臺的活躍、營收指標影響巨大。

場景1:廣告投放

互聯(lián)網內容領域,廣告投放對保持日活、增加營收的影響非常巨大。

通過廣告投放獲取的這波新用戶,是否具有消費潛力呢?要用什么樣的內容做用戶承接,通過什么關鍵路徑能夠實現留存和轉化呢?

為了提高投放效果,算法部門會基于歷史的用戶數據訓練用戶留存、消費預測模型。

場景2:潛在流失用戶挽留

具備什么樣行為特征的是高潛流失用戶呢?在什么時間節(jié)點對這些潛在流失用戶進行召回、挽留,能夠提高留存率,提高拉活率呢?

給出清晰的流失用戶定義后,分析師和算法部門,可以構建一套直播用戶流失預測模型。

基于模型,提取流失用戶的特征,利用這些特征對用戶進行挽留活動。

場景3:KA用戶分析和運營

KA用戶是直播行業(yè)里的重要運營和維護對象。

平臺新來了一個用戶,該用戶能否成為成為平臺營收的增長點呢?是否要在早期階段進行服務的提升和關系維護呢?

在直播場景里,預測模型將能大大提升精細化運營的ROI。

三、感觸比較深的點

1. 預覽數據

高質量的數據是數據分析和挖掘的基礎。

導入數據后,進行構建后,數據分析師能快速地了解數據的大體質量,不同特征的數據類型,有無缺失值,均值、眾數等信息,大大減少了因為數據質量問題引發(fā)的后續(xù)的問題。

2. 構建后的簡單特征關聯(lián)度分析

通常情況下,特征的選取,是基于業(yè)務經驗,系統(tǒng)也對這方面給出了快捷的特征影響分析,幫助分析師能篩除不必要的特征,加快模型構建速度。

模型構建結束后,系統(tǒng)也基于 KernelShap 給出排名前十的影響模型預測結果的特征。

數據分析的同學,可以將更多的精力放在對關鍵特征、關鍵用戶進行AB實驗。

因為本人不具備算法模型構建的技能,所以Studio的部分,未進行深入體驗。

四、其他體驗

1. 視覺層面的感受

視覺層面有兩個特點:簡潔,不花哨;扁平化,不枯燥。

對比一些廠商的工具,可能因為產品調性問題,不會特別在意這些細節(jié)。

2. 交互層面

交互層面,也是比較便捷。在提醒方面,也是做得很好的。

操作指引給出了比較圖形化的解釋,和介紹中的很多點,都是有對應關系的。

比如:清理和分析數據并獲得有關估算模型精度的指標識別訓練數據集中最具影響力的字段。

在導入了數據集之后,系統(tǒng)就給了我一些提示。

在預構建時,就給用戶一些特征權重的提示。

3. 功能層面

模型管理的流程是:導入數據集 → 數據集自動檢測 → 預構建(prebuild)→ 構建 → 預測 → 導出/共享。

在上文提到的交互提示下,操作起來沒有任何難度。

模型構建完成后,也能方便地看到構建的細節(jié),也能更數據科學家和算法工程師溝通,將模型構建的過程、腳本等等,都能進行共享,業(yè)務分析師職責范圍內的工作難度被大大降低。

五、總結和感受

我覺得 Amazon SageMaker Canvas?這款產品擁有黑科技、定位清晰,緊盯目標,有邊界感。

將復雜繁瑣的特征工程、模型構建的過程進行產品化,為分析師解決了 80% 的常見問題,大大提高了效率。

剩余的、難搞的、但是也同樣重要的模型調優(yōu),也可以跟數據科學家和算法工程師們進行協(xié)同。

數據分析師們將能大大地提升自工作效率,將更多的精力放到業(yè)務的驅動上。

 

作者:數據產品小lee;公眾號:樂說樂言

本文由 @數據產品小lee 原創(chuàng)發(fā)布于人人都是產品經理,未經許可,禁止轉載

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 看了博主幾乎所有文章,讓我一個想轉數據產品的人十分受用,不知道博主有聯(lián)系方式嗎,可以咨詢下一些問題嗎?

    來自浙江 回復
    1. 可以關注同名公眾號哈~

      來自湖北 回復
  2. 看了文章數據分析,感覺Amazon SageMaker Canvas這款數據分析工具還蠻實用的。

    來自江蘇 回復
    1. 嗯,我個人感覺也是這樣,解放了不少工作,可以多了解下~

      來自廣東 回復