下一位數(shù)據(jù)分析師,可能不是數(shù)據(jù)分析師——體驗(yàn)Amazon SageMaker Canvas有感
編輯導(dǎo)語(yǔ):當(dāng)機(jī)器學(xué)習(xí)概念與數(shù)據(jù)分析場(chǎng)景相碰撞時(shí),會(huì)產(chǎn)生什么樣的“火花”?也許,用戶可以更加便利地清洗、篩選數(shù)據(jù),進(jìn)行數(shù)據(jù)洞察,并創(chuàng)建預(yù)測(cè)模型。本篇文章里,作者結(jié)合Amazon SageMaker Canvas這款0代碼機(jī)器學(xué)習(xí)智能工具進(jìn)行了體驗(yàn)測(cè)評(píng),一起來(lái)看看吧。
一、前言
我雖然不是數(shù)據(jù)分析師,但是因?yàn)楣ぷ骷皭酆玫脑颍?jīng)常需要做一些數(shù)據(jù)的分析。
以前我分析數(shù)據(jù)的時(shí)候,都是先去數(shù)據(jù)庫(kù)寫一段長(zhǎng)長(zhǎng)的SQL查數(shù)據(jù),問(wèn)題簡(jiǎn)單的就加多幾段SQL簡(jiǎn)單分析完畢;復(fù)雜一點(diǎn)的就下載回來(lái)用Excel公式+透視圖;再?gòu)?fù)雜一點(diǎn)的就上Python+NLP+sklearn;更復(fù)雜的只能攤攤手:“哦吼,這個(gè)實(shí)現(xiàn)不了,提個(gè)需求找開發(fā)吧”。
最近抱著好奇的心態(tài),體驗(yàn)了一下亞馬遜云科技號(hào)稱“0代碼”的無(wú)代碼機(jī)器學(xué)習(xí)智能工具——Amazon SageMaker Canvas(后續(xù)簡(jiǎn)稱Canvas),最近本來(lái)就很流行低代碼、0代碼平臺(tái)的概念,這一下子把無(wú)比深?yuàn)W的機(jī)器學(xué)習(xí)給0代碼了,可憐的互聯(lián)網(wǎng)程序猿們和數(shù)據(jù)分析師是不是又要面臨新N輪的失業(yè)了。
百度指數(shù)-關(guān)鍵詞:低代碼
二、機(jī)器學(xué)習(xí)與數(shù)據(jù)分析
大部分PM大佬們,沒看過(guò)機(jī)器學(xué)習(xí)跑,但肯定或多或少做過(guò)數(shù)據(jù)分析的活,甚至不少公司還要求產(chǎn)品經(jīng)理和運(yùn)營(yíng)、市場(chǎng)小伙伴們一起背著各種用戶量、訂單量、訂單額的OKR/KPI。
用戶量有多少,都是怎么來(lái)的?下單的人那么多,他們有什么共同屬性?一份問(wèn)卷發(fā)下去,用戶反饋的結(jié)果如何?這些都是非常常見的數(shù)據(jù)分析問(wèn)題。
我們通過(guò)研發(fā)協(xié)助,或者系統(tǒng)功能,導(dǎo)出對(duì)應(yīng)數(shù)據(jù)后,一般在Excel、SPSS或者專業(yè)的BI軟件中完成數(shù)據(jù)洞察與分析、繪制圖表等工作,這就是最常見的數(shù)據(jù)分析過(guò)程。
其中最頭疼的,就是如何看懂這些數(shù)據(jù)、剖析出數(shù)據(jù)背后的問(wèn)題。遇到一些復(fù)雜的問(wèn)題時(shí),需要產(chǎn)品經(jīng)理、運(yùn)營(yíng)或更專業(yè)的數(shù)據(jù)分析師,掌握一定的統(tǒng)計(jì)學(xué)方法,同時(shí)對(duì)業(yè)務(wù)背景和行業(yè)知識(shí)有深厚的理解,才可能撥開迷霧,通過(guò)數(shù)據(jù)接近真相。
一個(gè)人學(xué)習(xí)、積累經(jīng)驗(yàn)的過(guò)程是漫長(zhǎng)的、限制重重的,但如果讓高速、大容量的電腦來(lái)代替人去學(xué)習(xí)和積累經(jīng)驗(yàn),通過(guò)大數(shù)據(jù)對(duì)電腦進(jìn)行訓(xùn)練,然后讓電腦對(duì)問(wèn)題做出判斷,是否就能培訓(xùn)出“電腦專家”呢?
答案是肯定的,機(jī)器學(xué)習(xí)就是一種讓電腦像人一樣去學(xué)習(xí)、積累經(jīng)驗(yàn)、嘗試解決問(wèn)題的方案。
機(jī)器本身并不明白什么業(yè)務(wù)邏輯,于是我們要給機(jī)器“灌輸”大量的數(shù)據(jù),機(jī)器通過(guò)決策樹、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等算法去不斷“刷題”訓(xùn)練,形成類似人的“意識(shí)”,最后對(duì)新來(lái)的數(shù)據(jù)產(chǎn)生一定的預(yù)測(cè)能力。
例如一位房地產(chǎn)老中介,可以通過(guò)幾十年的經(jīng)驗(yàn),在看到一個(gè)新的顧客時(shí),快速判斷該顧客的購(gòu)買意向一樣。機(jī)器學(xué)習(xí)完大量的交易數(shù)據(jù)后,當(dāng)有一個(gè)新的樣本進(jìn)入時(shí),機(jī)器就能快速判斷成交的概率。
人需要數(shù)年時(shí)間、在行業(yè)里摸爬滾打加上大量前人經(jīng)驗(yàn)教訓(xùn),才可能精通一門技藝,無(wú)論是產(chǎn)品經(jīng)理還是數(shù)據(jù)分析師、運(yùn)營(yíng)等,皆是如此。
對(duì)比人的學(xué)習(xí)過(guò)程,機(jī)器一樣需要大量的“經(jīng)驗(yàn)”即數(shù)據(jù)為基礎(chǔ),但是通過(guò)大量的CPU、GPU算力,學(xué)習(xí)過(guò)程可以縮短到數(shù)個(gè)小時(shí)內(nèi)完成,只要樣本量足夠大,機(jī)器的分析能力一點(diǎn)都不比人差,就像著名的電腦圍棋選手AlphaGo一樣。
關(guān)鍵在機(jī)器的經(jīng)驗(yàn)傳承,就是“Ctrl+C、Ctrl+V”的這么簡(jiǎn)單的事情,支持不斷迭代,而人的經(jīng)驗(yàn)傳承、知識(shí)升級(jí)就完成沒法跟機(jī)器比了。數(shù)據(jù)分析工作更講究基于客觀事實(shí)的數(shù)據(jù)基礎(chǔ),相對(duì)比設(shè)計(jì)、策劃等創(chuàng)意類工作,沒那么感性,這就讓本身“理性”的機(jī)器有了先天的優(yōu)勢(shì)。
三、機(jī)器學(xué)習(xí)能做什么
我們熟悉的特斯拉汽車自動(dòng)駕駛,就是通過(guò)機(jī)器學(xué)習(xí)的方法讓車載電腦學(xué)會(huì)開車。但是對(duì)于大部分產(chǎn)品經(jīng)理,這種需求都是遙不可及的,那日常工作中,機(jī)器學(xué)習(xí)對(duì)我們有什么用?
換個(gè)角度想一下:
- 當(dāng)你糾結(jié)公司產(chǎn)品最近大量投入廣告,但是訂單量卻一直不理想時(shí);
- 每舉辦完一個(gè)活動(dòng),運(yùn)營(yíng)就得花幾天在那里絞盡腦汁想?yún)^(qū)分出作弊的用戶時(shí);
- 運(yùn)維每到活動(dòng)發(fā)布后,就提示疑似有大量黑產(chǎn)刷單時(shí)。
產(chǎn)品經(jīng)理會(huì)想,如果有一個(gè)工具,可以幫助我們實(shí)現(xiàn)精準(zhǔn)推薦、分析用戶作弊概率、預(yù)測(cè)黑產(chǎn)風(fēng)險(xiǎn)等,那該多少?。∵@時(shí)候機(jī)器學(xué)習(xí)就離我們不遠(yuǎn)了。
我們可以通過(guò)Canvas的一些官方示例,看看機(jī)器學(xué)習(xí)在日常工作中能幫上什么忙:
1)客戶成交分析
在銀行辦理業(yè)務(wù)的過(guò)程中,通過(guò)客戶的年齡、工作、婚姻、教育、住房、貸款、違約,還有宏觀經(jīng)濟(jì)的居民消費(fèi)指數(shù)、消費(fèi)者信心指數(shù)、就業(yè)指數(shù)等信息,判斷客戶是否會(huì)購(gòu)買存款證(Certificate of Deposit,簡(jiǎn)稱CD,一種定期存款)。
這是一個(gè)典型的二元分析,即通過(guò)多個(gè)條件綜合判斷結(jié)果是、還是不是。例如電商就可以以此分析一款產(chǎn)品用戶會(huì)買,還是不買;快遞預(yù)測(cè)是否能準(zhǔn)時(shí)送達(dá)。
2)街區(qū)房?jī)r(jià)分析
通過(guò)街區(qū)地址坐標(biāo)、該街區(qū)的房屋平均年齡、房屋數(shù)量、人口、家庭數(shù)量、家庭收入中位數(shù)等信息,分析該區(qū)域房屋價(jià)格。
這是一個(gè)常見的回歸分析案例,通過(guò)一系列參數(shù),最終得出一個(gè)數(shù)據(jù)作為結(jié)果。常見應(yīng)用場(chǎng)景可以是成交價(jià)格預(yù)測(cè)、活動(dòng)帶來(lái)的用戶增長(zhǎng)效果預(yù)測(cè)等。
3)基于日期的銷量預(yù)測(cè)
通過(guò)日期、銷售額、是否有活動(dòng)、是否是學(xué)校放假,然后判斷一個(gè)具體日期或時(shí)間段的銷量。這是一種基于時(shí)間的序列預(yù)測(cè),常見的應(yīng)用場(chǎng)景是用戶量走勢(shì)預(yù)測(cè)、成交量走勢(shì)預(yù)測(cè)、風(fēng)險(xiǎn)數(shù)量預(yù)測(cè)等。
4)貸款違約風(fēng)險(xiǎn)預(yù)測(cè)
通過(guò)貸款人的貸款金額、貸款周期、貸款利息、貸款目的,貸款人的就業(yè)年限、房屋抵押情況、收入水平等數(shù)據(jù),分析該用戶是正常還款中、完成還款、還是會(huì)違約產(chǎn)生壞賬(charged off)。
與案例1中的客戶成交分析不同的是,此時(shí)結(jié)果是3個(gè),甚至可能是多個(gè),這種屬于“多類分類問(wèn)題”,相對(duì)于非黑即白的二元分析,借助此模式,可以用于更豐富的場(chǎng)景預(yù)測(cè)。例如我們有多套房子,可以用來(lái)判斷用戶最可能對(duì)其中哪一套感興趣;又或者用于把用戶按消費(fèi)欲望自動(dòng)分級(jí)、按某種用戶畫像自動(dòng)歸類等。
除了Canvas官方案例外,我還整理了一些在電商運(yùn)營(yíng)中,售前、中、后不同階段,機(jī)器學(xué)習(xí)可以助力的地方:
可以看出機(jī)器學(xué)習(xí)可以介入的機(jī)會(huì)很多,就算現(xiàn)階段還不能完全取代人工運(yùn)營(yíng),也可以有效為運(yùn)營(yíng)、客服、數(shù)據(jù)分析等崗位,發(fā)現(xiàn)問(wèn)題和提供建議,從而整體提高營(yíng)銷能力。
四、實(shí)際體驗(yàn)
接下來(lái)我們將通過(guò)一份用戶購(gòu)買數(shù)據(jù),通過(guò)Canvas,實(shí)際體驗(yàn)一番,看看0代碼的機(jī)器學(xué)習(xí)平臺(tái)究竟是怎么樣的。
測(cè)試項(xiàng)目:某內(nèi)購(gòu)商城,將要舉辦一個(gè)活動(dòng),希望把幾款熱銷的商品推廣給更多的員工購(gòu)買。
測(cè)試目的:預(yù)測(cè)每位員工最可能購(gòu)買的商品,然后進(jìn)行精準(zhǔn)推送,提高轉(zhuǎn)化率。
樣本介紹:從系統(tǒng)中導(dǎo)出了5款活動(dòng)商品的歷史購(gòu)買記錄,包括了購(gòu)買者所使用的手機(jī)品牌、客戶端類型、性別、司齡、年齡、婚姻、戶口、學(xué)歷、職位、職級(jí)、工作城市、所屬部門等信息,讓機(jī)器學(xué)習(xí)不同類型的員工更可能選購(gòu)哪款商品,根據(jù)預(yù)測(cè)結(jié)果,向公司其余員工定向推廣具體的商品,提高轉(zhuǎn)化率。
數(shù)據(jù)量:數(shù)據(jù)清洗后共9113條有效數(shù)據(jù)。
1. 創(chuàng)建賬號(hào)
注冊(cè)一個(gè)亞馬遜云科技的個(gè)人賬號(hào),完成存儲(chǔ)空間S3和Canvas的初始化。
2. 正式體驗(yàn)Amazon SageMaker Canvas
Amazon SageMaker Canvas作為一款0代碼機(jī)器學(xué)習(xí)平臺(tái),可以看到整個(gè)平臺(tái)界面十分的簡(jiǎn)潔、時(shí)尚,完全不會(huì)讓人有對(duì)代碼或者機(jī)器學(xué)習(xí)深?yuàn)W知識(shí)的恐懼感,視覺效果滿分。
1)創(chuàng)建模型
創(chuàng)建一個(gè)Model,即創(chuàng)建了一個(gè)項(xiàng)目。
2)導(dǎo)入數(shù)據(jù)
為項(xiàng)目導(dǎo)入需要讓機(jī)器學(xué)習(xí)的數(shù)據(jù)。
Canvas的數(shù)據(jù)需要utf-8格式的CSV,且先上傳到S3儲(chǔ)存中,才能在此導(dǎo)入。
除了導(dǎo)入單個(gè)CSV數(shù)據(jù)集,Canvas還支持對(duì)多個(gè)CSV進(jìn)行可視化的聯(lián)表操作、導(dǎo)入來(lái)自Amazon Redshift和Snowflake的數(shù)據(jù),并進(jìn)行SQL操作,提供更豐富的ETL數(shù)據(jù)處理能力。
數(shù)據(jù)安全:如果需要學(xué)習(xí)訓(xùn)練的數(shù)據(jù)中,包含了公司的敏感信息,請(qǐng)?zhí)崆巴瓿擅撁簦苊獠槐匾臄?shù)據(jù)泄露。
3)預(yù)覽字段和選擇目標(biāo)
查看導(dǎo)入的數(shù)據(jù)、選擇需要作為預(yù)測(cè)結(jié)果的字段。
Select a column to predict:選擇一列字段作為預(yù)測(cè)對(duì)象,選擇好后,Canvas會(huì)自動(dòng)識(shí)別該列數(shù)據(jù)的類型,是數(shù)值、二元對(duì)象、還是多元對(duì)象等,如果識(shí)別不正確,可以點(diǎn)擊Change type手動(dòng)修改。
其他作為被分析對(duì)象的列,Canvas會(huì)自動(dòng)檢測(cè)它的數(shù)據(jù)類型,但是有一定概率識(shí)別不準(zhǔn)確,且不支持修改,所以需要檢查清楚,并在數(shù)據(jù)源頭解決問(wèn)題,例如某零件的型號(hào)格式是個(gè)數(shù)字組合,但是Canvas就會(huì)將其當(dāng)作數(shù)值處理了,從而影響了機(jī)器學(xué)習(xí)準(zhǔn)確性。
此時(shí)我選擇商品名稱作為最終的預(yù)測(cè)對(duì)象,后續(xù)系統(tǒng)就會(huì)自動(dòng)分析其他字段與商品名稱之間的關(guān)系,即分析不同的用戶屬性,對(duì)最后購(gòu)買商品的影響。
4)預(yù)覽模型
通過(guò)點(diǎn)擊Preview model,只需要稍等幾十秒到幾分鐘(取決于字段的數(shù)據(jù)和數(shù)據(jù)總量),就可以看到系統(tǒng)的預(yù)估準(zhǔn)確率、以及每個(gè)字段的影響權(quán)重。Canvas會(huì)自動(dòng)完成傳統(tǒng)機(jī)器學(xué)習(xí)過(guò)程中,從樣本庫(kù)切分訓(xùn)練集、測(cè)試集的過(guò)程,自動(dòng)使用測(cè)試集的完成準(zhǔn)確率評(píng)估,降低了機(jī)器學(xué)習(xí)的操作門檻。
在過(guò)往數(shù)據(jù)模型建設(shè)的過(guò)程中,需要大量用戶調(diào)研、經(jīng)驗(yàn)總結(jié)、甚至專家評(píng)審的數(shù)據(jù)建模過(guò)程,Canvas就用了幾分鐘就完成了!極大地降低了數(shù)據(jù)分析的門檻(甚至完全沒門檻了,會(huì)認(rèn)字看結(jié)論即可)。
如果我們發(fā)現(xiàn)一些字段的影響權(quán)重非常低,對(duì)結(jié)果幾乎毫無(wú)影響,可以直接在字段列表中去掉這些值,這樣可以提高后續(xù)分析的速度,甚至提高預(yù)測(cè)的準(zhǔn)確性。有些字段系統(tǒng)可能會(huì)認(rèn)為對(duì)結(jié)果影響不大,但是我們從經(jīng)驗(yàn)或常識(shí)認(rèn)為并非如此,則可以選擇性保留。
每次調(diào)整好要分析的字段后,可以點(diǎn)擊一次Preview model,看看準(zhǔn)確率是否有所變化,從而實(shí)現(xiàn)優(yōu)化模型的過(guò)程。
5)模型構(gòu)建
Canvas提供了Quick快速和Standard標(biāo)準(zhǔn)兩種模式,快速一般需要2-15分鐘,標(biāo)準(zhǔn)需要2-4個(gè)小時(shí)。
標(biāo)準(zhǔn)和快速的區(qū)別是,標(biāo)準(zhǔn)的預(yù)測(cè)準(zhǔn)確率會(huì)高些,而且支持分享給Amazon SageMaker Studio——一款面向數(shù)據(jù)科學(xué)家、研發(fā)工程師的,代碼化機(jī)器學(xué)習(xí)平臺(tái),讓專業(yè)用戶可以對(duì)這個(gè)模型調(diào)優(yōu)、用于生產(chǎn)環(huán)境等。如果只是想試用,使用Quick模式將高效得多。
我嘗試了兩次標(biāo)準(zhǔn)的建模過(guò)程,發(fā)現(xiàn)數(shù)據(jù)量超過(guò)十萬(wàn)行以上,界面預(yù)估的時(shí)間就不太準(zhǔn)。如果只是想體驗(yàn),使用Quick build即可。
Canvas可以讓用戶不再需要關(guān)注機(jī)器學(xué)習(xí)的策略和算法的問(wèn)題,極大地降低了機(jī)器學(xué)習(xí)的入門門檻。
- 策略:用什么準(zhǔn)則去學(xué)習(xí)、確定損失函數(shù);
- 算法:此處的算法指狹義的算法,如最小二乘法、梯度下降、上升法等,是從數(shù)學(xué)上如何解決問(wèn)題的算法。
廣義的算法,就是我們?cè)趯W(xué)習(xí)機(jī)器學(xué)習(xí)過(guò)程中經(jīng)常會(huì)聽到的名詞,如線性回歸、決策樹、貝葉斯、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等算法,其實(shí)囊括了上述策略和算法這兩者的內(nèi)容。
6)訓(xùn)練結(jié)果
等待機(jī)器學(xué)習(xí)完畢,就可以看到系統(tǒng)分析出來(lái)的預(yù)測(cè)準(zhǔn)確率。
在概覽Overview Tab里,可以看到每一個(gè)指標(biāo)的影響系數(shù),點(diǎn)擊具體指標(biāo),可以查看該指標(biāo)的枚舉值,對(duì)預(yù)測(cè)結(jié)果的影響系數(shù)平均/最高/75%/中位/25%/最小值,通過(guò)概覽數(shù)據(jù),可以快速了解不同的字段對(duì)于最終結(jié)果的值的具體影響。
機(jī)器自學(xué)完成了對(duì)數(shù)據(jù)的理解和影響權(quán)重的判斷,并生成了精美的權(quán)重影響表格,以往需要數(shù)據(jù)分析師或者運(yùn)營(yíng)同事花上個(gè)半天甚至幾天時(shí)間的工作,全自動(dòng)化了。
這一步我們看到,機(jī)器認(rèn)為員工所屬城市是影響商品購(gòu)買決策的主要原因,其次是職級(jí)、訂單來(lái)源(設(shè)備)、職務(wù)等信息?;橐觥艨?、學(xué)歷等因素對(duì)購(gòu)買決策影響非常小。
本次預(yù)測(cè),系統(tǒng)提示的成功率是38.8%,看似不太理想,但換個(gè)思路:向三個(gè)人推送不同的商品,有一個(gè)人會(huì)喜歡這款商品,這個(gè)結(jié)果還是很不錯(cuò)的,畢竟我們有五款商品,如果是隨機(jī)盲推的話,準(zhǔn)確率就只有20%了。如果數(shù)據(jù)量更大,并采用標(biāo)準(zhǔn)的數(shù)據(jù)建模方式,應(yīng)該能獲得更好的預(yù)測(cè)準(zhǔn)確率。
點(diǎn)擊得分Scroing Tab,可以查看預(yù)測(cè)結(jié)果和實(shí)際結(jié)果的區(qū)別,以及對(duì)于每個(gè)預(yù)測(cè)結(jié)果的準(zhǔn)確率,點(diǎn)擊高級(jí)指標(biāo)Advanced metrics,可以查看到更多高級(jí)指標(biāo)。
由于預(yù)測(cè)對(duì)象類型的不一樣,高級(jí)指標(biāo)也不一樣,可用于給數(shù)據(jù)分析師進(jìn)行更高階的預(yù)測(cè)效果判斷使用。
7)模型預(yù)測(cè)
Canvas支持批量預(yù)測(cè)和單個(gè)預(yù)測(cè)的功能,如果我們只是想測(cè)試預(yù)測(cè)效果,或者被預(yù)測(cè)對(duì)象較少或較低頻出現(xiàn)時(shí),可以直接使用單個(gè)預(yù)測(cè),輸入已知的屬性,即可完成預(yù)測(cè)過(guò)程。
此處我輸入用戶信息后,系統(tǒng)預(yù)測(cè)該用戶購(gòu)買商品A的意愿最大,以及其他各商品的購(gòu)買可能性。
批量預(yù)測(cè),需要先將需要預(yù)測(cè)的數(shù)據(jù)集上傳到S3儲(chǔ)存中,再在此處選取,然后完成批量預(yù)測(cè)和結(jié)果下載。批量預(yù)測(cè)更適合商業(yè)化場(chǎng)景使用,可以對(duì)多個(gè)數(shù)據(jù)同時(shí)完成預(yù)測(cè),預(yù)測(cè)結(jié)果可以用于精準(zhǔn)推薦、定向營(yíng)銷。
營(yíng)銷的過(guò)程中,我們還可以把新的產(chǎn)生的訂單數(shù)據(jù)和舊的整合在一起,再建一個(gè)機(jī)器學(xué)習(xí)項(xiàng)目,不斷哺育機(jī)器學(xué)習(xí)樣本、提高預(yù)測(cè)精準(zhǔn)性。
8)版本管理
新建版本后,可以切換不同的字段,但是不允許修改導(dǎo)入用于機(jī)器學(xué)習(xí)的數(shù)據(jù)集。如果我們認(rèn)為預(yù)測(cè)結(jié)果、準(zhǔn)確率不太理想,可以嘗試創(chuàng)建新的版本,對(duì)上傳的數(shù)據(jù)集,選擇不一樣的字段,然后再重新機(jī)器學(xué)習(xí)訓(xùn)練,構(gòu)建獲得一個(gè)新的模型,在多個(gè)模型間對(duì)比,找到效果最好的方案。
9)模型分享
如果每次數(shù)據(jù)預(yù)測(cè)都需要先導(dǎo)出要數(shù)據(jù),然后再上傳到S3、再導(dǎo)入Amazon SageMaker Canvas,然后預(yù)測(cè)、導(dǎo)出結(jié)果,需求頻率一高,必然導(dǎo)致效率低下。
通過(guò)標(biāo)準(zhǔn)模式構(gòu)建出來(lái)的模型,支持分享到Amazon SageMaker Studio,讓研發(fā)和分析師進(jìn)行更高階的開發(fā),最終將機(jī)器學(xué)習(xí)的結(jié)果應(yīng)用于業(yè)務(wù)生產(chǎn)過(guò)程中,使預(yù)測(cè)能力功能化、產(chǎn)品化。
3. 計(jì)費(fèi)方式
根據(jù)Amazon SageMaker Canvas的介紹,收費(fèi)是使用會(huì)話費(fèi)用+模型訓(xùn)練費(fèi)用綜合計(jì)費(fèi)。即按使用系統(tǒng)的時(shí)長(zhǎng)+模型的數(shù)據(jù)量?jī)蓚€(gè)維度雙重計(jì)費(fèi)。
Amazon SageMaker Canvas為新人提供了免費(fèi)試用套餐:免費(fèi)套餐為期兩個(gè)月。該免費(fèi)套餐包括每月最多 750 小時(shí)的交互式會(huì)話時(shí)間,以及每月最多 10 個(gè)模型創(chuàng)建請(qǐng)求,每個(gè)模型創(chuàng)建請(qǐng)求最多 100 萬(wàn)個(gè)單元格。如果只是用于試用,應(yīng)該綽綽有余。
五、體驗(yàn)總結(jié)
在評(píng)價(jià)Amazon SageMaker Canvas好壞前,我們要看它到底解決了什么問(wèn)題:Canvas相對(duì)比傳統(tǒng)的機(jī)器學(xué)習(xí)平臺(tái),好處是無(wú)需編寫任何代碼,無(wú)需學(xué)習(xí)那些高深的數(shù)據(jù)分析方法和機(jī)器學(xué)習(xí)算法,就能實(shí)現(xiàn)對(duì)數(shù)據(jù)的機(jī)器學(xué)習(xí)和預(yù)測(cè)。
Canvas將機(jī)器學(xué)習(xí)的門檻大幅度降低,整個(gè)操作流程(注冊(cè)和初始化除外)甚至比很多Excel中的公式都更簡(jiǎn)單,讓人可以輕松上手。Canvas還提供了工作流對(duì)接,做好的模型可以給工程師進(jìn)一步使用,這就讓該平臺(tái)不僅僅是“玩玩而已”,做出來(lái)的東西是可以真正應(yīng)用到生產(chǎn)作業(yè)中的。
隨著機(jī)器學(xué)習(xí)相關(guān)技術(shù)的不斷發(fā)展,機(jī)器學(xué)習(xí)在很多行業(yè)已展露出逐步取代人工的態(tài)勢(shì),未來(lái)的科技發(fā)展勢(shì)必離不開機(jī)器學(xué)習(xí)。如何降低門檻,讓更多人投入機(jī)器學(xué)習(xí)工作的懷抱中、擴(kuò)大機(jī)器學(xué)習(xí)的影響面,將是一個(gè)全新的問(wèn)題。
目前很多耳熟能詳?shù)目萍季揞^,如微軟、谷歌、蘋果等,都相繼推出了自己的0代碼/低代碼機(jī)器學(xué)習(xí)平臺(tái),受限于數(shù)據(jù)安全、語(yǔ)言門檻、網(wǎng)絡(luò)訪問(wèn)以及其他一些局限問(wèn)題,其中很多平臺(tái)還處于一個(gè)不溫不火的階段。
但是,通過(guò)對(duì)Canvas的體驗(yàn),可以斷定在可期的未來(lái),機(jī)器學(xué)習(xí)大概率會(huì)成為一種可以速成的技能,只不過(guò)是有人專門研究數(shù)據(jù)收集,有人研究如何構(gòu)建模型,有人挑選算法、有人選擇策略……就像現(xiàn)在的互聯(lián)網(wǎng)IT分工精細(xì)化一樣的過(guò)程。
有了這樣快捷的工具后,用戶將無(wú)法感知如何預(yù)防過(guò)擬合、如何進(jìn)行算法調(diào)優(yōu)提效等傳統(tǒng)機(jī)器學(xué)習(xí)過(guò)程中常見的問(wèn)題。不需要太多的統(tǒng)計(jì)學(xué)和行業(yè)知識(shí),就能完成數(shù)據(jù)建模和預(yù)測(cè),還可能導(dǎo)致用戶對(duì)于機(jī)器學(xué)習(xí)的過(guò)度依賴,從而忽視了行業(yè)知識(shí)的沉淀和人在此過(guò)程中的重要意義。但是這些問(wèn)題,隨著0代碼機(jī)器學(xué)習(xí)平臺(tái)的不斷升級(jí)迭代,肯定會(huì)逐步得以解決。
最后,回歸本篇的題目,下一個(gè)數(shù)據(jù)分析師,何必是數(shù)據(jù)分析師,借助更高級(jí)的0代碼機(jī)器學(xué)習(xí)平臺(tái),機(jī)器學(xué)習(xí)平臺(tái)可能就像Axure、墨刀、XD等軟件一樣流行,簡(jiǎn)單上手,人人都是數(shù)據(jù)分析師。
#專欄作家#
iCheer,公眾號(hào):云主子,人人都是產(chǎn)品經(jīng)理專欄作家。房地產(chǎn)/物業(yè)行業(yè)產(chǎn)品經(jīng)理,Python編程愛好者,養(yǎng)貓發(fā)燒友。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
你真弱
死廢物,裝你媽逼
丈母娘:許可你就是個(gè)廢物,蛀蟲,騙我首付錢,能力不行娶村姑不好嗎
看了博主的文章,感覺未來(lái)數(shù)據(jù)分析師的發(fā)展方向應(yīng)該是數(shù)據(jù)產(chǎn)品或行業(yè)專家,一是因?yàn)閿?shù)據(jù)技術(shù)已成熟,關(guān)于數(shù)據(jù)的一切復(fù)雜操作都可以沉淀為自動(dòng)化系統(tǒng),這個(gè)系統(tǒng)需要有既懂產(chǎn)品又懂?dāng)?shù)據(jù)的數(shù)據(jù)產(chǎn)品來(lái)牽頭設(shè)計(jì);二是因?yàn)樽詣?dòng)化系統(tǒng)一旦大規(guī)模應(yīng)用,數(shù)據(jù)分析師就不用埋頭于數(shù)據(jù)本身(比如取數(shù)、清洗等),有更多的時(shí)間來(lái)解讀數(shù)據(jù),給出觀點(diǎn),即成為有數(shù)據(jù)sense的行業(yè)專家。