機(jī)器學(xué)習(xí)的未來(lái),真的能技術(shù)民主化嗎?
編輯導(dǎo)語(yǔ):機(jī)器學(xué)習(xí)這一概念對(duì)大多數(shù)人來(lái)說(shuō),還是相對(duì)陌生的,但其實(shí)許多行業(yè)的業(yè)務(wù)場(chǎng)景都可以結(jié)合機(jī)器學(xué)習(xí)平臺(tái),達(dá)成更高效率的業(yè)務(wù)分析操作。本篇文章里,作者便從Amazon SageMaker Canvas出發(fā),對(duì)機(jī)器學(xué)習(xí)平臺(tái)的發(fā)展做了解讀,一起來(lái)看一下。
人工智能一直是近幾年熱炒的話題,但隨著資本興趣的轉(zhuǎn)移,人工智能行業(yè)也逐漸趨于冷靜,各企業(yè)算法工程師崗位逐年縮減,競(jìng)爭(zhēng)也逐年激烈。
一個(gè)朋友跟我說(shuō),他18年的時(shí)候轉(zhuǎn)了NLP方向,他覺(jué)得他算是跨專(zhuān)業(yè)轉(zhuǎn)型的最后一批選手,再后來(lái)他手里的簡(jiǎn)歷基本是清北華五計(jì)算機(jī)科班的了。從從業(yè)人員水平來(lái)看,人工智能已經(jīng)變成普通人不再能輕易能涉足的行業(yè)。但技術(shù)如果不能服務(wù)社會(huì),賦能行業(yè),那便是無(wú)用的技術(shù)。
目前人工智能行業(yè)處在冷靜期,但用戶(hù)對(duì)機(jī)器學(xué)習(xí)的需求從未冷靜。更多的企業(yè)在一邊沉淀技術(shù),一邊積極尋求更好的落地場(chǎng)景。
從17年底開(kāi)始,陸陸續(xù)續(xù)有企業(yè)發(fā)布機(jī)器學(xué)習(xí)平臺(tái),其實(shí)所謂機(jī)器學(xué)習(xí)平臺(tái)本質(zhì)是機(jī)器學(xué)習(xí)工具。而工具的好處在于,AI企業(yè)終于不用花太多精力在場(chǎng)景選擇上,而是追求產(chǎn)品的卓越上。就像賣(mài)剪刀的企業(yè),不用太關(guān)心剪刀是拿去剪繩子還是剪紙片,用戶(hù)自己會(huì)發(fā)揮剪刀的價(jià)值。
最近體驗(yàn)了一下Amazon SageMaker Canvas,感受到AI企業(yè)正很努力地將人工智能變成普通人能夠輕松使用的技術(shù)。
先聊一下Amazon,2017年11月亞馬遜云科技推出了SageMaker這一機(jī)器學(xué)習(xí)平臺(tái),并且在三年內(nèi)收獲了很多世界500強(qiáng)知名企業(yè)客戶(hù)。在去年12月份,SageMaker為了讓更多人能以更低的門(mén)檻享受到機(jī)器學(xué)習(xí)的服務(wù),他們推出了SageMaker Canvas。
我們先不著急直接看SageMaker Canvas是什么,我們先了解一下機(jī)器學(xué)習(xí)平臺(tái)是什么樣的賽道。
一、冰山下埋著千億規(guī)模市場(chǎng)
隨著C端互聯(lián)網(wǎng)經(jīng)濟(jì)增長(zhǎng)放緩,越來(lái)越多的人將目光投向B端,技術(shù)逐漸向產(chǎn)業(yè)傾斜。騰訊、阿里、亞馬遜等大廠概莫如是。
而B(niǎo)端目前如火如荼發(fā)展的正是數(shù)字化轉(zhuǎn)型。清華“姚班”的帶頭人姚期智院士公開(kāi)說(shuō),數(shù)據(jù)、算法、算力是數(shù)字經(jīng)濟(jì)核心技術(shù)。機(jī)器學(xué)習(xí)同樣離不開(kāi)數(shù)據(jù)、算法、算力。
根據(jù)最近一篇東吳證券的行業(yè)報(bào)告可以看到,國(guó)內(nèi)機(jī)器學(xué)習(xí)賽道目前是百億規(guī)模市場(chǎng),但帶動(dòng)的卻是千億產(chǎn)業(yè)規(guī)模。
我們可以將相關(guān)產(chǎn)業(yè)規(guī)模和機(jī)器學(xué)習(xí)市場(chǎng)規(guī)模比較,相關(guān)產(chǎn)業(yè)規(guī)模大概在機(jī)器學(xué)習(xí)市場(chǎng)規(guī)模的7倍。美團(tuán)在做外賣(mài)業(yè)務(wù)的時(shí)候燒錢(qián)燒了20億美元,王慧文有一句話很經(jīng)典:知道市場(chǎng)體量,才有燒錢(qián)的魄力。美團(tuán)外賣(mài)燒了20億美金,但是現(xiàn)在美團(tuán)外賣(mài)規(guī)模1000億美金,市場(chǎng)每天外賣(mài)單數(shù)5000萬(wàn)單。冰山下的千億市場(chǎng),才是真正值得機(jī)器學(xué)習(xí)從業(yè)者們耐心挖掘的。
國(guó)內(nèi)機(jī)器學(xué)習(xí)產(chǎn)業(yè)規(guī)模
二、大廠和獨(dú)角獸的角力
機(jī)器學(xué)習(xí)市場(chǎng)帶動(dòng)的相關(guān)產(chǎn)業(yè)規(guī)模僅國(guó)內(nèi)就有上千億產(chǎn)業(yè)規(guī)模,鋪開(kāi)到全球范圍,這無(wú)疑是一個(gè)大金礦。對(duì)于人工智能細(xì)分領(lǐng)域的創(chuàng)業(yè)公司有很多,但是對(duì)于機(jī)器學(xué)習(xí)平臺(tái),就只能看大廠和獨(dú)角獸們的角逐了。因?yàn)橐环矫鏅C(jī)器學(xué)習(xí)平臺(tái)燒錢(qián),另一方面機(jī)器學(xué)習(xí)平臺(tái)需要大量數(shù)據(jù)去訓(xùn)練和驗(yàn)證平臺(tái)能力。
2020年百度開(kāi)始密集地發(fā)布線上活動(dòng),推廣百度智能云。而同時(shí),華為云不甘落后地推出ModelArt。
而對(duì)比國(guó)外,早在2017年,Gartner第一次提出數(shù)據(jù)科學(xué)平臺(tái)(也叫AI平臺(tái))概念,將機(jī)器學(xué)習(xí)、深度學(xué)習(xí)模塊納入數(shù)據(jù)分析平臺(tái)之中。Alteryx在18年進(jìn)入數(shù)據(jù)科學(xué)平臺(tái)魔力象限領(lǐng)導(dǎo)者,同期國(guó)內(nèi)也涌現(xiàn)出第四范式、九章云極等優(yōu)秀企業(yè)。
Amazon SageMaker 在2021年進(jìn)入Gartner數(shù)據(jù)平臺(tái)魔力象限,值得一提的小插曲是,Amazon SageMaker在2020年本就該在魔力象限遠(yuǎn)見(jiàn)者中占據(jù)一席之地,但由于發(fā)布時(shí)間比評(píng)選時(shí)間晚了點(diǎn),錯(cuò)了過(guò)了當(dāng)年的評(píng)選,而是獲得當(dāng)年的榮譽(yù)提名。
Gartner在2021年對(duì)Amazon SageMaker的評(píng)價(jià)優(yōu)勢(shì)是:
- 云平臺(tái)的深度和廣度;
- 性能、可擴(kuò)展和精細(xì)度;
- 數(shù)據(jù)標(biāo)記和人機(jī)交互功能。
需要注意的事項(xiàng)是:
- 不斷發(fā)展公民數(shù)據(jù)科學(xué)新引力;
- 需要快速開(kāi)發(fā)以匹配競(jìng)品的功能;
- 成熟的本地、混合和多云的支持。
因?yàn)镚artner對(duì)Amazon SageMaker的這番評(píng)價(jià),讓我更加想了解一下Amazon SageMaker。
三、SageMaker Canvas:亞馬遜云科技的科技民主化之旅
終于要聊到想聊的正主了。SageMaKer Canvas是亞馬遜云科技在平臺(tái)概念和目標(biāo)用戶(hù)上的一次全力突圍。從產(chǎn)品使用過(guò)程來(lái)說(shuō),是一次能感受到產(chǎn)品背后后厚積薄發(fā)的酣暢體驗(yàn)。
Canvas是SageMaker的全新功能,通過(guò)低代碼的形式讓非專(zhuān)業(yè)人員也能便捷地享受機(jī)器學(xué)習(xí)的福利。
我有一個(gè)朋友是物流運(yùn)營(yíng)的小伙伴,她希望客戶(hù)的訂單都能按時(shí)送達(dá)。為了滿足這個(gè)目標(biāo),她希望能夠?qū)τ唵问欠衲軠?zhǔn)時(shí)送達(dá)做提前預(yù)測(cè),以便她能提前發(fā)掘可能延期的訂單。我從她手里要來(lái)了兩份脫敏后的數(shù)據(jù),一份是商品清單,另一份是發(fā)貨訂單。
因?yàn)镃anvas的介紹里并不需要寫(xiě)代碼,我嘗試使用Canvas搭建一個(gè)訂單送貨的預(yù)測(cè)模型,看看是否能實(shí)現(xiàn)她要的。Canvas的操作如同它的引導(dǎo)書(shū)一樣,僅有四步:選擇數(shù)據(jù),創(chuàng)建模型,分析結(jié)果,生成預(yù)測(cè)。
Canvas首頁(yè)
1. 選擇數(shù)據(jù)
我把從朋友那邊拿到的脫敏數(shù)據(jù)上傳到Canvas里以便訓(xùn)練使用。Canvas的數(shù)據(jù)導(dǎo)入有4種方式:本地上傳、Amazon S3導(dǎo)入、Snowflake導(dǎo)入、Redshift導(dǎo)入。
第一次上傳失敗了,因?yàn)楸镜厣蟼餍枰赟3里修改一項(xiàng)配置,在按官網(wǎng)操作之后,順利地上傳了本地的CSV文件。Amazon S3是亞馬遜自己的云存儲(chǔ),類(lèi)似云盤(pán)。Redshift是亞馬遜的數(shù)倉(cāng)平臺(tái)。
比較意外的是看到了Snowflake,可能很多人不知道Snowflake,這是一家做云原生數(shù)倉(cāng)的公司,推的是DaaS,但收費(fèi)模式卻是SaaS企業(yè)最想要的模式,建議SaaS企業(yè)的小伙伴可以研究一下。
比較意外是亞馬遜自己有Redshift為啥還要引入第三方數(shù)倉(cāng),轉(zhuǎn)念一想也挺有道理,一方面Snowflake確實(shí)做得好,有廣大的用戶(hù)群,另一方面snowflake是云服務(wù)商而不是云設(shè)備商,Snowflake也可以是亞馬遜的客戶(hù)。
Canvas的數(shù)據(jù)錄入頁(yè)面
通過(guò)本地上傳數(shù)據(jù)之后,Canvas支持Join功能。這個(gè)可能稍微偏一點(diǎn)技術(shù),其實(shí)就是開(kāi)發(fā)最常用的Join函數(shù)的意思,能夠把數(shù)據(jù)庫(kù)表拼接。
首先,我把朋友給的商品清單和發(fā)貨訂單進(jìn)行拼接,兩張表里有相同的字段ProductID。拼接之后我得到了一個(gè)維度更多的CSV文件,或者說(shuō)特征更多的CSV文件。
然后將拼接好的數(shù)據(jù)上傳到了Canvas里。Canvas會(huì)對(duì)上傳的數(shù)據(jù)進(jìn)行簡(jiǎn)單的統(tǒng)計(jì)。下圖里JoinData是我拼接后的文件,我們后文就專(zhuān)業(yè)一點(diǎn)叫把這個(gè)CSV文件稱(chēng)為數(shù)據(jù)集。這個(gè)數(shù)據(jù)集大小是16列10000行。
在導(dǎo)入數(shù)據(jù)集的時(shí)候,Canvas支持?jǐn)?shù)據(jù)集的預(yù)覽,避免用戶(hù)導(dǎo)入錯(cuò)數(shù)據(jù)集。
Canvas選擇數(shù)據(jù)頁(yè)面
2. 創(chuàng)建模型
正常來(lái)說(shuō),建模這個(gè)事情真的是煉丹師們登場(chǎng),非專(zhuān)業(yè)人士緊急避讓。但是Canvas里的操作簡(jiǎn)單到讓人不可思議。
在創(chuàng)建模型的頁(yè)面選擇自己關(guān)注的字段,然后選擇自己需要參與到模型分析的字段就可以了。這里簡(jiǎn)單一點(diǎn)理解,就像求解一個(gè)復(fù)雜的函數(shù) y = f (x1, x2, x3,…… )。我們關(guān)注的字段是 y,需要參與分析的字段是x1,x2,x3等等。相當(dāng)于是在尋求一個(gè)函數(shù)的計(jì)算結(jié)果。
比如在這次訂單的測(cè)試?yán)?,我把是否?zhǔn)時(shí)送到這個(gè)字段作為我關(guān)注的字段 y,我們用 y=1 表示可以準(zhǔn)時(shí)送到,y=0表示不能準(zhǔn)時(shí)送到。剩余的字段運(yùn)輸優(yōu)先級(jí)、距離、發(fā)貨地等作為x1,x2,x3進(jìn)入模型參與運(yùn)算和分析。
Canvas創(chuàng)建模型
通過(guò)預(yù)分析建模,能夠得到SageMaker建議的模型分類(lèi)。比如預(yù)測(cè)是否能準(zhǔn)時(shí)送達(dá),SageMaker給出的建議是一個(gè)二分類(lèi)的模型,就只會(huì)出現(xiàn)兩種結(jié)果,準(zhǔn)時(shí)送達(dá)和不準(zhǔn)時(shí)送達(dá)。
在預(yù)分析建模后,能夠得到模型的準(zhǔn)確率和各個(gè)特征的影響系數(shù)。影響系數(shù)越大,表示這個(gè)字段對(duì)結(jié)果越重要。比如圖里可以看到預(yù)建模的結(jié)果是,運(yùn)送優(yōu)先級(jí)最大程度影響是否能按時(shí)送達(dá)。
但是預(yù)建模只能讓我們知道準(zhǔn)確率,還沒(méi)有更詳細(xì)的信息。Canvas支持標(biāo)準(zhǔn)建模和快速建模,根據(jù)數(shù)據(jù)集的大小不同,標(biāo)準(zhǔn)建模和快速建模的耗時(shí)也不同。我用10000行數(shù)據(jù)測(cè)試,快速建模大概需要2-15分鐘,標(biāo)準(zhǔn)建模需要1小時(shí)45分鐘左右。
標(biāo)準(zhǔn)建模能讓模型更加準(zhǔn)確,運(yùn)算的時(shí)間也更長(zhǎng)一些。這里滿足了兩類(lèi)人的需求,定性的看問(wèn)題的小伙伴快速建模就可以了,對(duì)結(jié)果定量嚴(yán)格要求的用戶(hù)可以標(biāo)準(zhǔn)建模,標(biāo)準(zhǔn)建模還能將模型分享給算法團(tuán)隊(duì)進(jìn)行進(jìn)一步的開(kāi)發(fā)。
算下來(lái)創(chuàng)建模型頁(yè)面就三個(gè)配置模塊,建模完成以后就進(jìn)入了下一階段數(shù)據(jù)分析。
3. 數(shù)據(jù)分析
數(shù)據(jù)分析階段和創(chuàng)建模型的預(yù)建模步驟拿到的信息類(lèi)似,主要是模型準(zhǔn)確率和各個(gè)特征的權(quán)重。也可以單獨(dú)看某個(gè)特征值的預(yù)測(cè)影響。而最主要的是能夠看到分析結(jié)果里的高級(jí)矩陣,同時(shí)能看到F1得分、準(zhǔn)確率、精確度、召回率和AUC。
Canvas 分析頁(yè)面
Canvas 高級(jí)矩陣頁(yè)面
這些高級(jí)矩陣的指標(biāo)其實(shí)是由頁(yè)面里藍(lán)粉框內(nèi)的TP、TN、FP、FN數(shù)值計(jì)算得到的,這一部分業(yè)務(wù)人員其實(shí)不是很關(guān)心,但是可能有小伙伴感興趣,我們簡(jiǎn)單掃個(gè)盲。
- TP:True Positive,即正確預(yù)測(cè)出的正樣本個(gè)數(shù)(實(shí)際是準(zhǔn)時(shí),模型預(yù)測(cè)也是準(zhǔn)時(shí))。
- FP:False Positive,即錯(cuò)誤預(yù)測(cè)出的正樣本個(gè)數(shù)(實(shí)際是延期,被模型預(yù)測(cè)成了準(zhǔn)時(shí))。
- TN:True Negative,即正確預(yù)測(cè)出的負(fù)樣本個(gè)數(shù)(實(shí)際是延期,模型預(yù)測(cè)也是延期)。
- FN:False Negative,即錯(cuò)誤預(yù)測(cè)出的負(fù)樣本個(gè)數(shù)(實(shí)際是準(zhǔn)時(shí),被模型預(yù)測(cè)成了延期)。
準(zhǔn)確率(Accuracy)= (TP + TN) / 總樣本 =(944 + 945)/2000 = 94.45%。定義是:對(duì)于給定的測(cè)試數(shù)據(jù)集,分類(lèi)器正確分類(lèi)的樣本數(shù)與總樣本數(shù)之比。
精確率(Precision)= TP / (TP + FP) = 944/(944+54) = 94.589%。它表示:預(yù)測(cè)為正的樣本中有多少是真正的正樣本,它是針對(duì)我們預(yù)測(cè)結(jié)果而言的。Precision又稱(chēng)為查準(zhǔn)率。
召回率(Recall)= TP / (TP + FN) = 944/(944+57) = 94.306% 。它表示:樣本中的正例有多少被預(yù)測(cè)正確了, 它是針對(duì)我們?cè)瓉?lái)的樣本而言的。Recall又稱(chēng)為查全率。
F1分?jǐn)?shù)(F1 Score),是統(tǒng)計(jì)學(xué)中用來(lái)衡量二分類(lèi)模型精確度的一種指標(biāo)。它同時(shí)兼顧了分類(lèi)模型的精確率和召回率。F1分?jǐn)?shù)可以看作是模型精確率和召回率的一種調(diào)和平均,它的最大值是1,最小值是0。
AUC(Area under curve)曲線下面區(qū)域的面積,這條曲線一般指ROC(Receiver operator characteristic curve)曲線。按照定義,AUC是ROC曲線下的面積,而ROC曲線的橫軸是FP,縱軸是TP。
4. 生成預(yù)測(cè)
第三步主要是分析模型訓(xùn)練的結(jié)果,沒(méi)有過(guò)多可操作的頁(yè)面,模型生成之后,第四步可以通過(guò)模型來(lái)預(yù)測(cè)結(jié)果。
在預(yù)測(cè)新結(jié)果的時(shí)候,我們只需把新的特征值放進(jìn)模型,模型會(huì)計(jì)算出對(duì)應(yīng)的結(jié)果。
我們?nèi)我庠O(shè)定訂單的優(yōu)先級(jí),運(yùn)輸方式,目的地距離等參數(shù),Canvas能夠基于我們輸入的特征值給我們返回一個(gè)預(yù)測(cè)結(jié)果:準(zhǔn)時(shí)或者延期。Canvas可以直接單點(diǎn)預(yù)測(cè)和批量預(yù)測(cè)。
利用批量預(yù)測(cè)的功能,我朋友就能得到她后續(xù)處理的訂單是否能準(zhǔn)時(shí)送達(dá)的預(yù)測(cè)結(jié)果了。
單點(diǎn)預(yù)測(cè)
批量預(yù)測(cè)
5. 使用小結(jié)
我大概統(tǒng)計(jì)了一下操作用時(shí),第一次使用花了半小時(shí)左右,主要在探索功能上多花了點(diǎn)時(shí)間。熟練操作后可能5-10分鐘就可以把Canvas的完整流程走完。
看下來(lái)Canvas把建模完全變成了黑盒測(cè)試,用戶(hù)只需給Canvas設(shè)定輸入?yún)?shù)和輸出參數(shù),Canvas就可以實(shí)現(xiàn)模型創(chuàng)建,并能為用戶(hù)提供預(yù)測(cè)功能。官方主打的低代碼雖然和APaaS行業(yè)里的低代碼認(rèn)知有挺出入,但從操作流程來(lái)看也說(shuō)不上虛假宣傳,確實(shí)沒(méi)有需要coding的地方。
我想這個(gè)產(chǎn)品應(yīng)該算是亞馬遜云科技對(duì)技術(shù)民主化的一次探索,將晦澀復(fù)雜的技術(shù)用最簡(jiǎn)單的方式呈現(xiàn),以期降低用戶(hù)使用技術(shù)的門(mén)檻。從Canvas的產(chǎn)品表現(xiàn)來(lái)看,實(shí)實(shí)在在降低了機(jī)器學(xué)習(xí)準(zhǔn)入門(mén)檻。
但是,完全沒(méi)有人工智能知識(shí)或數(shù)據(jù)分析知識(shí)的小伙伴可能上手還是有一些困難,這個(gè)困難不是囿于產(chǎn)品的使用,而是囿于知識(shí)版圖的缺失。
不知道Canvas后續(xù)會(huì)不會(huì)進(jìn)一步降低使用門(mén)檻,還是說(shuō)目前產(chǎn)品目標(biāo)受眾就是懂一部分?jǐn)?shù)據(jù)分析和人工智能的運(yùn)營(yíng)人員。如果用戶(hù)只局限在互聯(lián)網(wǎng)相關(guān)的產(chǎn)品運(yùn)營(yíng)人員的話,那可能就有點(diǎn)格局沒(méi)打開(kāi)。還有很多場(chǎng)景值得機(jī)器學(xué)習(xí)發(fā)揮,比如銀行通過(guò)客戶(hù)的行為數(shù)據(jù)預(yù)測(cè)用戶(hù)是否可能會(huì)延期還款,工廠通過(guò)設(shè)備的監(jiān)控?cái)?shù)據(jù)預(yù)測(cè)設(shè)備是否會(huì)損壞。
在這些場(chǎng)景下,需要掌握機(jī)器學(xué)習(xí)能力的人不再是產(chǎn)品經(jīng)理,運(yùn)營(yíng)。還有銀行的風(fēng)控、工業(yè)里的IT和OT人員等等。
從Canvas簡(jiǎn)潔的UI畫(huà)風(fēng)來(lái)看,Canvas團(tuán)隊(duì)對(duì)產(chǎn)品要求的還是相對(duì)嚴(yán)格的。包括在數(shù)據(jù)拼接和數(shù)據(jù)導(dǎo)入的時(shí)候,有很多小細(xì)節(jié)來(lái)做柔性處理。比如數(shù)據(jù)拼接時(shí),對(duì)不同數(shù)據(jù)來(lái)源數(shù)據(jù)集的字段用不同的顏色表示;比如數(shù)據(jù)導(dǎo)入之后,在選擇目標(biāo)列的時(shí)候,對(duì)所有字段的類(lèi)型做了預(yù)定義,并且配了很形象的Icon去表征數(shù)據(jù)類(lèi)型。
但是在模型構(gòu)建的部分只能看到耗時(shí)和預(yù)測(cè)用時(shí),無(wú)法看到剩余用時(shí)或者訓(xùn)練進(jìn)度。這里的設(shè)計(jì)會(huì)讓用戶(hù)處于沒(méi)有安全感的等待中。用戶(hù)并不知道是因?yàn)榫W(wǎng)速問(wèn)題、瀏覽器問(wèn)題、還是Canvas的服務(wù)問(wèn)題一直未完成訓(xùn)練。
Canvas的頁(yè)面細(xì)節(jié)
另外,無(wú)論是SageMaker Canvas也好,還是其他的ML平臺(tái)也好。整個(gè)行業(yè)應(yīng)該沒(méi)有很好的模型可解釋性。這一點(diǎn)是比較反人類(lèi)認(rèn)知的。我們從小接受的教育都是要邏輯嚴(yán)謹(jǐn),要不然也不會(huì)在數(shù)學(xué)物理里做了那么多證明題。
現(xiàn)在ML平臺(tái)的解決方案是非常簡(jiǎn)單粗暴的,給一堆特征參數(shù),然后返回一個(gè)預(yù)測(cè)結(jié)果。但是為什么有這個(gè)結(jié)果,是目前誰(shuí)都說(shuō)不清楚的。如果ML平臺(tái)把模型可解釋性提高,相信會(huì)有更多的用戶(hù)接受。
四、市場(chǎng)所需的機(jī)器學(xué)習(xí)平臺(tái)到底是什么樣的?
前面聊了很多我自己的使用體會(huì),我們也一起了解了一下市場(chǎng)到底需要什么樣的機(jī)器學(xué)習(xí)平臺(tái)。Garnter2021數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)平臺(tái)的魔力象限里提到,他們對(duì)機(jī)器學(xué)習(xí)平臺(tái)的考量標(biāo)準(zhǔn)在五個(gè)點(diǎn):
- 數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)平臺(tái)能力;
- 企業(yè)的收入和增長(zhǎng);
- 客戶(hù)數(shù)量;
- 市場(chǎng)吸引力;
- 產(chǎn)品能力評(píng)分。
但是Gartner的考量維度是以一個(gè)中立視角從企業(yè)層面對(duì)機(jī)器學(xué)習(xí)平臺(tái)進(jìn)行評(píng)價(jià)。而更能說(shuō)明產(chǎn)品能力的,還是用戶(hù)反饋。勇于嘗鮮的部分企業(yè)用戶(hù)其實(shí)已經(jīng)對(duì)現(xiàn)有的機(jī)器學(xué)習(xí)平臺(tái)開(kāi)始了深度探索,我從字母點(diǎn)評(píng)整理了一個(gè)小樣本的機(jī)器學(xué)習(xí)平臺(tái)調(diào)研結(jié)果,可以一起看一下。
機(jī)器學(xué)習(xí)平臺(tái)第三方評(píng)價(jià)
機(jī)器學(xué)習(xí)平臺(tái)用戶(hù)滿意度
從第三方的數(shù)據(jù)來(lái)看,不同用戶(hù)對(duì)主流機(jī)器學(xué)習(xí)平臺(tái)能力評(píng)價(jià)總體接近,一些頭部機(jī)器學(xué)習(xí)平臺(tái)的客戶(hù)滿意度遠(yuǎn)超行業(yè)平均值。從用戶(hù)的實(shí)際口碑來(lái)看,Amazon SageMaker的產(chǎn)品競(jìng)爭(zhēng)力比較靠前,用戶(hù)普遍反饋的是可以放心地讓SageMaker托管自己的機(jī)器學(xué)習(xí)任務(wù),而相對(duì)抱怨較多的是Amazon的付費(fèi)模式過(guò)于復(fù)雜。
其實(shí)普通企業(yè)用戶(hù)對(duì)機(jī)器學(xué)習(xí)平臺(tái)核心訴求就兩點(diǎn):
1)安全
機(jī)器學(xué)習(xí)平臺(tái)需要保證用戶(hù)的數(shù)據(jù)絕對(duì)安全,這也是很多企業(yè)目前還在猶豫上不上公有云的困擾,企業(yè)需要確保自己的數(shù)據(jù)不泄露,不被篡改。
2)準(zhǔn)確
對(duì)于選擇了機(jī)器學(xué)習(xí)平臺(tái)的用戶(hù)來(lái)說(shuō),他們需要模型能有較為精確的結(jié)果。而準(zhǔn)確性也是對(duì)機(jī)器學(xué)習(xí)平臺(tái)的算法能力比較大的挑戰(zhàn),模型是否準(zhǔn)確其實(shí)在用戶(hù)心里也是個(gè)二分類(lèi)問(wèn)題,不會(huì)嚴(yán)格的像算法里給出90%精確這樣。用戶(hù)心里需要的是放心的托管和信任。在這兩點(diǎn)核心訴求的滿足上,ML平臺(tái)缺一不可。
而在這兩點(diǎn)核心訴求之上,才是便捷易用和模型可解釋。當(dāng)然一開(kāi)始著手設(shè)計(jì)低門(mén)檻的產(chǎn)品和平臺(tái)是否安全、模型是否準(zhǔn)確這兩點(diǎn)并不沖突。
目前已經(jīng)獲得客戶(hù)好評(píng)的企業(yè),不知道打造的是不是最終市場(chǎng)所需的機(jī)器學(xué)習(xí)平臺(tái),但至少眼前他們的路是正確且踏實(shí)的。
五、最后
最后,要回過(guò)頭反思一下咱們標(biāo)題的問(wèn)題了。毫無(wú)疑問(wèn),Amazon SageMaker Canvas的出現(xiàn),是在傳遞一個(gè)信號(hào),亞馬遜云科技正在把復(fù)雜深?yuàn)W的技術(shù),簡(jiǎn)化成一系列簡(jiǎn)單的配置,讓更多人可以輕易地借助機(jī)器學(xué)習(xí)的力量改善自己的工作狀況。
但無(wú)論是從大廠動(dòng)向的觀察,還是從歷史發(fā)展必然性的反思,機(jī)器學(xué)習(xí)的未來(lái)應(yīng)該是科技向善,科技親民,讓更多的人享受到真實(shí)有效的服務(wù)。當(dāng)前疫情之下,國(guó)內(nèi)經(jīng)濟(jì)發(fā)展啟動(dòng)雙循環(huán)。企業(yè)運(yùn)營(yíng)迫切需要改革,效率迫切需要提升,技術(shù)民主化才真正是當(dāng)下各類(lèi)科技的最佳實(shí)踐,所以標(biāo)題的問(wèn)題不再是問(wèn)題,而是科技企業(yè)們需要給出的答案。
#專(zhuān)欄作家#
忙里偷賢,公眾號(hào):忙里偷賢,人人都是產(chǎn)品經(jīng)理專(zhuān)欄作家。B端產(chǎn)品,低代碼玩家,工具類(lèi)產(chǎn)品思考者。熱愛(ài)分享,務(wù)實(shí)的理想主義者。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于CC0協(xié)議。
機(jī)器學(xué)習(xí)確實(shí)是第一次了解到相關(guān)概念,文章寫(xiě)的很詳細(xì)
不愧是獲獎(jiǎng)前三的大佬,分析邏輯好嚴(yán)謹(jǐn),感謝分享!希望后續(xù)看到牛人更多有意思的文章??!
機(jī)器學(xué)習(xí)的未來(lái)應(yīng)該是科技向善,科技親民,讓更多的人享受到真實(shí)有效的服務(wù)。尤其疫情當(dāng)下,科技企業(yè)們更應(yīng)給出答案。
目前人工智能行業(yè)處在冷靜期,但用戶(hù)對(duì)機(jī)器學(xué)習(xí)的需求從未冷靜。更多的企業(yè)在一邊沉淀技術(shù),一邊積極尋求更好的落地場(chǎng)景。