Amazon SageMaker Canvas | 數(shù)據(jù)產(chǎn)品的AI神器
編輯導(dǎo)語:Amazon SageMaker Canvas作為一款優(yōu)秀的機器學(xué)習(xí)平臺,在做模型預(yù)測方面有很大的優(yōu)勢,本篇文章作者向我們介紹了Amazon SageMaker Canvas的產(chǎn)品特色以及操作體驗等,并結(jié)合具體案例來體驗該工具的服務(wù),感興趣的一起來看。
一、業(yè)務(wù)場景
隨著數(shù)據(jù)意識的提升,數(shù)字化轉(zhuǎn)型和對數(shù)據(jù)價值挖掘的訴求越來越強,人工智能技術(shù)成為了不可或缺的一部分,如何在業(yè)務(wù)中嘗試AI?
如何用AI技術(shù)為公司、產(chǎn)品、業(yè)務(wù)、客戶創(chuàng)造附加價值?
如何在IT系統(tǒng)嵌入智能功能,提高業(yè)務(wù)處理效率?
做智能推薦,哪些影響因子應(yīng)該擁有更高的權(quán)重?
這些高頻的疑問擺在眼前。
AI具有天然的高門檻:算力資源稀缺、開發(fā)成本高、模型訓(xùn)練較慢、部署效率低。
行業(yè)數(shù)據(jù)缺乏、應(yīng)用發(fā)展不足、人才培養(yǎng)和儲備不足。
頂尖人才稀缺細化到機器學(xué)習(xí),機器學(xué)習(xí)門檻高,如何選擇算法、清洗數(shù)據(jù)、訓(xùn)練參數(shù)、評估指標(biāo)、選擇最佳實踐,構(gòu)建推薦系統(tǒng)。
每一步都是門學(xué)問,那該怎樣做到低成本的應(yīng)用和有效落地實踐呢?
站在巨人的肩膀上,借助AI廠商、云服務(wù)廠商的平臺能力,依托成型的工具是個不錯的辦法。
云計算龍頭亞馬遜云科技的SageMaker Canvas,用無代碼理念構(gòu)建機器學(xué)習(xí)模型,面向業(yè)務(wù)、產(chǎn)品、運營、數(shù)據(jù)分析師等沒有機器學(xué)習(xí)經(jīng)驗群體,在沒有數(shù)據(jù)技術(shù)團隊情況下,可以用可視化、點擊式用戶界面,輕松探索和構(gòu)建機器學(xué)習(xí)模型,做出準確的模型預(yù)測。
二、Amazon SageMaker Canvas介紹
全球最大的云服務(wù)商亞馬遜云科技在2021 re:Invent大會上推出機器學(xué)習(xí)服務(wù)SageMaker新的功能——Canvas,允許產(chǎn)品經(jīng)理、運營、業(yè)務(wù)分析師以可視化的操作方式,不需要機器學(xué)習(xí)經(jīng)驗,也不需要編寫程序代碼,即使沒有算法工程師幫助也可以自動清理和組合數(shù)據(jù),并就能構(gòu)建機器學(xué)習(xí)模型,選出性能最佳的模型,生成精準的預(yù)測。
1. 產(chǎn)品特色
- 提供可視化、點擊式界面構(gòu)建 ML 模型并生成準確的預(yù)測,無需編寫代碼或事先具備 ML 經(jīng)驗;
- 可快速連接和訪問來自云和本地數(shù)據(jù)源的數(shù)據(jù)、組合數(shù)據(jù)集并創(chuàng)建統(tǒng)一的數(shù)據(jù)集以訓(xùn)練 ML 模型,會自動檢測和糾正數(shù)據(jù)錯誤并分析 ML 的數(shù)據(jù)準備情況;
- 使用Amazon SageMaker 的強大 AutoML 技術(shù),能夠根據(jù)數(shù)據(jù)集自動創(chuàng)建確定最佳模型;
- 可與Amazon SageMaker Studio 集成,使業(yè)務(wù)分析師可以輕松地與數(shù)據(jù)科學(xué)家共享模型和數(shù)據(jù)集,以便驗證和進一步優(yōu)化模型。
2. 產(chǎn)品操作——不寫代碼的創(chuàng)建機器學(xué)習(xí)模型
使用操作極其簡單,注冊賬號后,只需打開 Amazon SageMaker Canvas服務(wù),在上傳數(shù)據(jù)和選擇目標(biāo)后,都是自動操作:自動清理準備數(shù)據(jù)——自動創(chuàng)建模型——生成并理解預(yù)測,在過程中,平臺能自動糾正上傳數(shù)據(jù)錯誤,比如補充缺失值或刪除重復(fù)的行和列。
1)瀏覽導(dǎo)入和連接數(shù)據(jù)
支持瀏覽和導(dǎo)入來自云和本地數(shù)據(jù)源的數(shù)據(jù),可以輕松連接多個數(shù)據(jù)源、組合數(shù)據(jù)集并創(chuàng)建新的統(tǒng)一數(shù)據(jù)集以訓(xùn)練預(yù)測模型。
2)選擇目標(biāo)
選擇要預(yù)測的值。
3)準備和分析數(shù)據(jù)
內(nèi)置數(shù)據(jù)清理和數(shù)據(jù)準備,可以自動檢測錯誤、清理和分析數(shù)據(jù),最大限度地減少手動清理數(shù)據(jù)的需要,例如自動填充缺失值等,以確定數(shù)據(jù)已準備就緒。
4)創(chuàng)建模型
指定模型預(yù)測的目標(biāo)后點擊按鈕創(chuàng)建ML模型,所需模型即可訓(xùn)練得到??梢允褂肅anvas 測試數(shù)百個 ML 候選模型,以創(chuàng)建基于您的數(shù)據(jù)集做出最準確預(yù)測的模型。
5)生成并理解預(yù)測
模型預(yù)覽,描述個人使用數(shù)據(jù)的來源、數(shù)據(jù)集定義、模型選擇與原因、模型效果及預(yù)測結(jié)果??梢粤私猱?dāng)前模型的準確性以及每列對預(yù)測的相對影響。
輸入或上傳數(shù)據(jù)即可生成單個或批量預(yù)測結(jié)果。生成模型后,還可使用Amazon SageMaker Studio協(xié)作共享模型給數(shù)據(jù)科學(xué)家等合作伙伴,幫助進一步審查或者優(yōu)化。
三、SageMaker Canvas電梯廣告業(yè)務(wù)實踐體驗
電梯廣告是以廣告公司同小區(qū)物業(yè)簽訂租用合約,再向廣告主提供廣告投放服務(wù)的形式。
在刊例價相同的情況下,如何選擇樓宇、優(yōu)化點位,提前預(yù)測哪些電梯點位會更容易被廣告主選擇、有更高的上刊率就至關(guān)重要。
即如何通過簽約前獲得的樓盤基礎(chǔ)信息:城市、區(qū)縣、地址、樓盤類型(商住樓、寫字樓、綜合體、住宅)、占地面積、建筑面積、物業(yè)公司、物業(yè)費、平均租金、開發(fā)商、交付時間、容積率、綠化率
入住率、樓棟數(shù)、覆蓋人數(shù)、房價等信息,預(yù)測樓盤的上刊率,判斷是否是優(yōu)質(zhì)樓盤可以簽約。
1)第一步:開啟 Amazon SageMaker Canvas服務(wù)
注冊賬戶后,搜索進入SageMaker控制臺,啟動Canvas應(yīng)用程序。
2)第二步:上傳數(shù)據(jù)并選擇目標(biāo)
開啟Canvas實例后,會彈出操作介紹,按提示上傳數(shù)據(jù)、連接數(shù)據(jù)。
SageMaker Canvas可對連接的數(shù)據(jù)顯示預(yù)覽結(jié)果,導(dǎo)入數(shù)據(jù)后,選擇用于預(yù)測的目標(biāo)數(shù)據(jù)。Canvas會自動選擇適合的問題類型,如現(xiàn)金上刊率,即為數(shù)值預(yù)測,點擊“Quilk build”變開始自動構(gòu)建模型。
3)第三步,評估模型
上傳數(shù)據(jù)并選擇構(gòu)建方式后,Canvas進入模型構(gòu)建階段,1500條數(shù)據(jù),8.8萬單元格,提示需要1h45min構(gòu)建完畢,實際16:00 開始,17:35 結(jié)束跟預(yù)估時間相差不大。
模型構(gòu)建完畢的頁面,看出模型預(yù)測與真實數(shù)值差異在正負0.065左右,對現(xiàn)金上刊率影響較大的因子有:點位數(shù)、最高樓層、區(qū)域、總?cè)藬?shù)、真實房價、交房時間、總戶數(shù)。
給出模型的執(zhí)行情況、每一列數(shù)據(jù)對預(yù)測結(jié)果所產(chǎn)生的影響情況,切換Scoring選項卡可查看解釋相關(guān)指標(biāo)可視化結(jié)果和指標(biāo)。
4)第四步,生成預(yù)測
Amazon SageMaker Canvas支持,①Batch 針對整個數(shù)據(jù)集進行批量預(yù)測 可以上傳數(shù)據(jù),下載預(yù)測結(jié)果 預(yù)測值及可能性,②Single 針對指定的單一數(shù)值進行預(yù)測,直接輸入數(shù)據(jù),更新結(jié)果即可查看預(yù)測值和相對于平均預(yù)測結(jié)果的情況。
四、總結(jié)體驗
Amazon SageMaker Canvas像是一個完備的“中央廚房”,使用Amazon SageMaker的用戶只需準備好“食材”(數(shù)據(jù))就可以享受菜品(預(yù)測結(jié)果),不需考慮食材準備(數(shù)據(jù)清洗)、菜譜選擇(模型選擇)、開始做菜(訓(xùn)練模型),從實踐后總結(jié)優(yōu)劣勢如下:
1. 優(yōu)勢
- 業(yè)務(wù)友好,真0代碼0基礎(chǔ)應(yīng)用,上傳數(shù)據(jù)-選擇指標(biāo)-生成模型,自動構(gòu)建可視化一鍵式操作,即可生成高準確度的機器學(xué)習(xí)預(yù)測;
- 低成本實踐,使業(yè)務(wù)工程師能夠開始處理以前由數(shù)據(jù)科學(xué)團隊負責(zé)的數(shù)據(jù)科學(xué)問題,加快構(gòu)建使用機器學(xué)習(xí)模型的效率,提高解決方案的創(chuàng)新和數(shù)字化速度;
- 協(xié)作友好,內(nèi)置可共享給算法同事,進一步評估優(yōu)化模型,一個專為 ML 設(shè)計的完全集成的開發(fā)環(huán)境;外部可與各種流行的 BI 工具集成;
- 對外提供為期兩個月的免費試用,最多可訓(xùn)練10個 ML 模型和100萬單元格的免費數(shù)據(jù)空間。
2. 劣勢
- 計費方式復(fù)雜,按服務(wù)計費、按流量付費,不適宜國情;
- 全稱英文操作&界面交互,習(xí)慣了中文頁面和交互的會有點不適應(yīng);
- 單指標(biāo)最優(yōu),適用場景有限,目前只支持:預(yù)測及影響因子評估。
作者:申墨揚
本文由 @申墨揚 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CCO協(xié)議。
- 目前還沒評論,等你發(fā)揮!