一文讀懂:機(jī)器學(xué)習(xí)模型構(gòu)建全流程
本文是系列文章的第二篇,會(huì)具體產(chǎn)出模型構(gòu)建環(huán)節(jié)的具體內(nèi)容。閱讀本文前,建議先閱讀上篇文章,可以知道模型構(gòu)建環(huán)節(jié)處于AI產(chǎn)品構(gòu)建的哪個(gè)位置。
上文以薅羊毛項(xiàng)目為例,簡(jiǎn)單介紹了AI產(chǎn)品構(gòu)建的全流程,其中模型構(gòu)建、模型評(píng)估等重點(diǎn)環(huán)節(jié)只是一筆帶過。今天我們來了解一下模型構(gòu)建環(huán)節(jié)的具體內(nèi)容。
模型構(gòu)建,其實(shí)就是從繁雜的數(shù)據(jù)中提取那些最能解釋數(shù)據(jù)本質(zhì)的特征,再利用算法建立出對(duì)未知數(shù)據(jù)有準(zhǔn)確預(yù)測(cè)能力模型的過程。
模型構(gòu)建主要包括5個(gè)階段,分別為算法選擇、特征工程、模型訓(xùn)練、模型驗(yàn)證和模型融合。
一、算法選擇
以上文薅羊毛項(xiàng)目為例,基于其需求定義,模型需要計(jì)算出用戶是薅羊毛用戶的概率,并根據(jù)概率高低分為正常、疑似、高危三類,最終技術(shù)同學(xué)決定采用邏輯回歸算法來實(shí)現(xiàn)該需求。
邏輯回歸算法具有計(jì)算速度快、可解釋性強(qiáng)的優(yōu)點(diǎn),適用于解決需求中的多分類問題,而且還可以對(duì)用戶“為什么封號(hào)”的質(zhì)疑,有較強(qiáng)的解釋性。
目前大家對(duì)算法有個(gè)概念就可以,后續(xù)篇章中會(huì)對(duì)常見的算法進(jìn)行較詳細(xì)的介紹。
二、特征工程
確定算法之后,我們就可以進(jìn)入特征工程階段了。
特征工程是模型構(gòu)建過程中最重要的部分,如果我們可以挑選到足夠優(yōu)質(zhì)的特征,不僅可以提升模型性能,還能降低模型的復(fù)雜度,大幅簡(jiǎn)化構(gòu)建過程。
數(shù)據(jù)和特征決定了模型的上限,而模型和算法只是逼近這個(gè)上限而已。
所有模型的輸入都是數(shù)量化的信息,所以我們需要通過某種方式,把各種類型的數(shù)據(jù)轉(zhuǎn)化成數(shù)量化的信息,這個(gè)過程就是特征工程。
以薅羊毛項(xiàng)目為例,我們可以通過用戶是否在夜間活動(dòng)、操作頻率、歷史訂單、完成活動(dòng)速度、同一臺(tái)終端是否登錄多個(gè)賬號(hào)等一系列特征,來表達(dá)是薅羊毛用戶的可能性,這就是建立了薅羊毛用戶的特征工程。我們可以通過這些特征來判斷用戶的可疑程度。
特征過程包括以下四個(gè)流程:
- 數(shù)據(jù)清洗:數(shù)據(jù)預(yù)處理的重要環(huán)節(jié),主要是對(duì)數(shù)據(jù)進(jìn)行重新審查和校驗(yàn),檢查數(shù)據(jù)一致性、處理無效值和缺失值等。
- 特征提?。簭脑紨?shù)據(jù)中提取有用的特征,將其轉(zhuǎn)化為一組更具代表性和可解釋性的特征。特征提取的目的是減少原始數(shù)據(jù)的維度,提高數(shù)據(jù)的表達(dá)能力,幫助算法進(jìn)行更好的完成任務(wù)。
- 特征選擇:篩選出對(duì)分類或回歸有重要貢獻(xiàn)的特征,從而降低數(shù)據(jù)集復(fù)雜度,提高模型的泛化能力。
- 生成訓(xùn)練集和測(cè)試集:把整理過的數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,為模型訓(xùn)練做最后的準(zhǔn)備。
構(gòu)造機(jī)器學(xué)習(xí)模型的目的,是希望從原始數(shù)據(jù)中梳理出問題的結(jié)構(gòu),學(xué)習(xí)到問題的本質(zhì),那些優(yōu)質(zhì)的特征其實(shí)就是對(duì)問題本質(zhì)的最好詮釋,而如何找到優(yōu)質(zhì)特征自然也就成為了模型構(gòu)建的核心工作。
特征工程的內(nèi)容很多,也非常重要,建議自己主動(dòng)去查一下資料,詳細(xì)了解一下數(shù)據(jù)清洗、數(shù)據(jù)提取、數(shù)據(jù)選擇的各種方法,對(duì)該環(huán)節(jié)了解越深入,和算法同學(xué)的溝通越順暢。
三、模型訓(xùn)練
模型訓(xùn)練是通過不斷訓(xùn)練、驗(yàn)證和調(diào)優(yōu),讓模型達(dá)到最優(yōu)的過程。
這里的“最優(yōu)”,指的是模型擬合能力和泛化能力的平衡點(diǎn)。
- 擬合能力:模型在已知數(shù)據(jù)上(訓(xùn)練集)表現(xiàn)的好壞
- 泛化能力:模型在未知數(shù)據(jù)上(測(cè)試集)表現(xiàn)的好
如果想讓模型有足夠好的擬合能力,就需要構(gòu)建一個(gè)復(fù)雜的模型對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,但是模型越復(fù)雜就會(huì)越依賴訓(xùn)練集的數(shù)據(jù),就越可能出現(xiàn)訓(xùn)練集的表現(xiàn)很好,但在測(cè)試集上表現(xiàn)差的情況,泛化能力比較差,這種情況叫做“過擬合”。
如果想讓提高模型的泛化能力,就要降低模型復(fù)雜度,減少對(duì)訓(xùn)練集的依賴,但如果過度降低復(fù)雜度,又可能導(dǎo)致“欠擬合”的情況。
- 過擬合:模型把數(shù)據(jù)學(xué)習(xí)的太徹底,甚至把噪聲數(shù)據(jù)的特征也學(xué)習(xí)到了,就導(dǎo)致不能很好的識(shí)別未知數(shù)據(jù),模型泛化能力下降。訓(xùn)練集表現(xiàn)很好,但是測(cè)試集很差。讀的是“死書”,并沒有真正掌握書里的精髓,自然就無法很好的應(yīng)用了。產(chǎn)生過擬合的原因一般有:特征過多,模型復(fù)雜度過高,樣本數(shù)據(jù)無法代表預(yù)定的分類,樣本噪音干擾過大等。
- 欠擬合:模型不能很好的捕捉數(shù)據(jù)特征,不能很好的擬合數(shù)據(jù)。在訓(xùn)練集的表現(xiàn)就很差,需要繼續(xù)努力“學(xué)習(xí)”。產(chǎn)生欠擬合的原因一般有:模型復(fù)雜度過低、特征量過少等。
算法工程師就這樣不斷的調(diào)整模型參數(shù)、訓(xùn)練,再用交叉驗(yàn)證的方式,逐漸找到擬合能力和泛化能力的平衡點(diǎn),這個(gè)平衡點(diǎn)就是我們訓(xùn)練模型的目標(biāo)。
- 交叉驗(yàn)證:一種評(píng)估機(jī)器學(xué)習(xí)模型性能的有效方法,可以用于選擇最佳模型參數(shù)、模型選擇以及避免過擬合等問題。包括簡(jiǎn)單交叉驗(yàn)證、留出交叉驗(yàn)證、自助交叉驗(yàn)證等方法。
四、模型驗(yàn)證
經(jīng)過復(fù)雜的模型訓(xùn)練,我們終于得到了一個(gè)所謂的“最優(yōu)解”,但是怎么證明這個(gè)最優(yōu)解就是真正的最優(yōu)解呢?我們需要模型驗(yàn)證階段來確認(rèn)這個(gè)“最優(yōu)解”的真假。
模型驗(yàn)證一般通過模型的性能指標(biāo)和穩(wěn)定性指標(biāo)來評(píng)估。
模型性能,就是模型預(yù)測(cè)的準(zhǔn)確性。
- 分類模型性能評(píng)估:分類模型的預(yù)測(cè)結(jié)果是具體的分類,一般使用召回率、F1、KS、AUC等評(píng)估指標(biāo),來判斷分類模型的性能。
- 回歸模型性能評(píng)估:回歸模型的預(yù)測(cè)結(jié)果是連續(xù)值,一般使用方差和MSE等評(píng)估指標(biāo),來判斷回歸模型的性能。
模型穩(wěn)定性,指的是模型性能可以持續(xù)多久,一般使用PSI指標(biāo)來評(píng)估模型的穩(wěn)定性。
產(chǎn)品經(jīng)理需要對(duì)模型驗(yàn)證環(huán)節(jié)格外關(guān)注,需要深入理解評(píng)估指標(biāo)、計(jì)算邏輯,并能根據(jù)指標(biāo)的數(shù)據(jù)判斷模型效果是否達(dá)標(biāo)。
這里只簡(jiǎn)單描述了模型驗(yàn)證的概念和意義,后面會(huì)詳細(xì)講解模型評(píng)估的核心指標(biāo)。
五、模型融合
為了提升模型的準(zhǔn)確率和穩(wěn)定性,有時(shí)會(huì)同時(shí)構(gòu)建多個(gè)模型,再把這些模型集成在一起,確保模型有更優(yōu)的整體表現(xiàn)。
比如薅羊毛項(xiàng)目這種分類模型,可以用最簡(jiǎn)單的投票方法來融合,票數(shù)最多的類別就是最終的結(jié)果。
我們只需要知道一些常用的模型融合方法即可,比如加權(quán)平均法、Bagging等,感興趣的話可以自己查一下。
六、總結(jié)
本文粗略介紹了模型構(gòu)建的算法選擇、特征工程、模型訓(xùn)練、模型驗(yàn)證和模型融合等5個(gè)環(huán)節(jié),其中產(chǎn)品經(jīng)理需要重點(diǎn)關(guān)注特征過程和模型驗(yàn)證環(huán)節(jié),建議繼續(xù)查閱資料,加強(qiáng)理解。
下篇文章,我會(huì)詳細(xì)介紹模型評(píng)估環(huán)節(jié)的詳細(xì)內(nèi)容,敬請(qǐng)期待。
本文由 @AI小當(dāng)家 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
感覺寫的非常到位非常好啊,怎么沒有閱讀呢