策略產(chǎn)品經(jīng)理:通俗易懂了解機(jī)器學(xué)習(xí)原理(下篇)
作為策略產(chǎn)品經(jīng)理,簡單理解有關(guān)機(jī)器學(xué)習(xí)的相關(guān)原理,可以更了解核心的應(yīng)用場景,從而助推策略產(chǎn)品經(jīng)理去更好地服務(wù)于業(yè)務(wù)。本篇文章里,作者針對(duì)機(jī)器學(xué)習(xí)的部分算法原理與應(yīng)用場景進(jìn)行了一定解讀,一起來看。
今天我們繼續(xù)講完剩下的幾個(gè)算法原理與應(yīng)用場景。
一、基本的機(jī)器學(xué)習(xí)算法
1. 支持向量機(jī)算法(Support Vector Machine,SVM)
1)支持向量機(jī)入門了解
支持向量機(jī)可以算是機(jī)器學(xué)習(xí)當(dāng)中比較難的部分了,一般很多學(xué)習(xí)機(jī)器學(xué)習(xí)的同學(xué)學(xué)到這個(gè)部分都會(huì)選擇“狗帶放棄”,但是我們還是要堅(jiān)持去通俗易懂的理解,盡量幫助大家深入淺出。
SVM一般用于解決二分類問題(也可以解決多分類和回歸問題,目前主要的應(yīng)用場景就是圖像分類、文本分類以及面部識(shí)別等場景),歸根結(jié)底就是一句話最大化離平面最近的點(diǎn)到到平面之間的距離,這個(gè)其實(shí)就叫支持向量;類似圖中的直線,對(duì)兩邊的點(diǎn)形成的超平面(綠色虛線與紅色虛線)能夠最大。
2)線性分類器定義
在機(jī)器學(xué)習(xí)的上篇中講到線性回歸為一元線性回歸,一元也就是一個(gè)自變量加上一個(gè)因變量,這種在二維坐標(biāo)軸可以表示成(x,y);假設(shè)有兩類要用來區(qū)分的樣本點(diǎn),一類用黃色的“●”,另一類用紅色的“□”,中間這條直線就是用來講兩類樣本完全分開的分類函數(shù),用數(shù)學(xué)化的方式描述圖片就是:
樣本數(shù)據(jù):11個(gè)樣本,2個(gè)輸入 (x1,x2) ,一個(gè)輸出y。
第i個(gè)樣本的輸入:
輸出y:用1(紅色方形□)和-1(黃色圓點(diǎn)●)作為標(biāo)簽。
訓(xùn)練樣本集合:
訓(xùn)練的核心目標(biāo):以訓(xùn)練的樣本為研究的對(duì)象,找到一條直線能夠?qū)深悩颖灸軌蛴行Х珠_,一個(gè)線性函數(shù)能夠把樣本進(jìn)行分開的話,我們就稱之為樣本的線性可分性:
當(dāng)樣本點(diǎn)位(x1,x2,y)的時(shí)候,找到上述這條直線進(jìn)行平面樣本點(diǎn)分割,其中區(qū)域 y = 1(圖中的類+1)的點(diǎn)用下述公式表達(dá):
那么y = -1類的點(diǎn)表達(dá)式就是:
上述就是線性可分的明確定義,由此類推用更高維度的超平面可以通過增加x維度來表達(dá),我們認(rèn)為這種表達(dá)方式會(huì)比較的麻煩會(huì)用矩陣表達(dá)式來進(jìn)行代替:
一般簡寫為,方便理解:
大家要厘清一個(gè)概念,在公式當(dāng)中X不是代表橫坐標(biāo),而是樣本的向量表達(dá)式,假如上圖最下方的紅框坐標(biāo)是(5,1),那么這個(gè)對(duì)應(yīng)的列向量表達(dá)式如下所示;其中WT 代表是一個(gè)行向量,就是我們所說的位置參數(shù),X是一組列向量,是已經(jīng)知道的樣本數(shù)據(jù),Wi表示的就是Xi的系數(shù),行向量和列向量相乘就得到了1*1的矩陣,也就是一個(gè)實(shí)數(shù)了:
3)如何找到合適的參數(shù)構(gòu)建線性分類器
機(jī)器學(xué)習(xí)就是找到通過學(xué)習(xí)的算法找到最合適超參Wi,支持向量機(jī)有兩個(gè)目標(biāo):第一個(gè)是使間隔最大化,第二個(gè)是使樣本正確分類;
我們都學(xué)過歐式距離公式,二維空間當(dāng)中的點(diǎn)位(x,y)到 對(duì)應(yīng)直線的距離可以表示為,
用這個(gè)邏輯推演擴(kuò)展到n維度空間之后,n維度的向量表示為:
即n維度列向量到直線公式的距離可以表示為:
其中:
根據(jù)下圖可以指導(dǎo),支持向量到超平面的距離就是d,其他點(diǎn)到超平面的距離就會(huì)大于d;
所以按照歐式距離原理,我們就可以得到下列式子:
公式兩邊同時(shí)除以d,并且我們令||w||d = 1(方便公式推導(dǎo),對(duì)目標(biāo)函數(shù)本身無影響),可以得到下列式:
并且我們對(duì)方程進(jìn)行合并可以得到式:
我們就得到了最大間隔下的兩個(gè)超平面,分別為過綠色原點(diǎn)的平面和過黃色三角的平面,我們來最大化這個(gè)距離就可以得到:
我們令y(wTx+b ) = 1,最后可以得到:
再做一個(gè)分子與分母之間轉(zhuǎn)化可以得到:
為了簡化問題,再把w里面的根號(hào)去除一下,所以我們最終優(yōu)化問題可以得到要求解決的w:
策略產(chǎn)品了解支持向量機(jī)SVM到這個(gè)階段已經(jīng)差不多了,后面詳細(xì)的求解w涉及到對(duì)偶問題的求解拉格朗日乘數(shù)法和強(qiáng)對(duì)偶問題求硬間隔,當(dāng)分類點(diǎn)位存在交織的時(shí)候還需要設(shè)定軟間隔(放寬對(duì)于樣本的要求,允許少量的樣本分類錯(cuò)誤),已經(jīng)屬于偏算法數(shù)學(xué)解題范疇了,感興趣同學(xué)可以深度了解與推導(dǎo)一下。
4)支持向量機(jī)的優(yōu)缺點(diǎn)
優(yōu)點(diǎn):
- 理論基礎(chǔ)完善,相比較于神經(jīng)網(wǎng)絡(luò)可解釋性更強(qiáng);
- 求解是全局最優(yōu)而不是局部最優(yōu);
- 同時(shí)適用于線性問題和非線性問題(核函數(shù))兩種;
- 高緯度樣本空間同樣也能用SVM支持向量機(jī);
缺點(diǎn):
SVM不太適合超大的數(shù)據(jù)集類型。
2. 樸素貝葉斯算法-Naive Bayes
樸素貝葉斯是基于貝葉斯定理和條件獨(dú)立性假設(shè)的分類方法,屬于生成模型(工業(yè)界多用于垃圾郵件分類、信用評(píng)估以及釣魚網(wǎng)站監(jiān)測等場景),核心思想就是學(xué)習(xí)輸入輸出的聯(lián)合概率模型P(X,Y),然后使用條件概率公式求得P(Y | X )-表示在X發(fā)生的條件下,Y事件發(fā)生的概率。Arthur先帶大家回顧一下大學(xué)數(shù)學(xué)概率論的基礎(chǔ)知識(shí),便于大家能夠快速理解。
1)概率論基礎(chǔ)必備知識(shí)
其中條件概率公式如下所示:
P(X,Y)表示的是Y和X同時(shí)發(fā)生的概率;
- 如果X和Y是相互獨(dú)立事件的話P(X,Y)=P(X)*P(Y)
- 如果X和Y不相互獨(dú)立那么P(X,Y) = P(Y | X )*P(X)= P(X | Y )*P(Y)。
兩遍同時(shí)除以一個(gè)P(X),就得到了我我們的主角貝葉斯公式:
2)樸素貝葉斯的學(xué)習(xí)和分類
我知道了貝葉斯公式之后,怎么用其原理來做分類呢,跟隨Arthur按照下面的思路一起推演:
假設(shè):訓(xùn)練集 T={(x1,y1),…,(xn,yn)},通過P(Y = k), k = 1,2,…,k 算出 P(Y)。
在樸素貝葉斯中我們把條件概率分布做獨(dú)立性假設(shè),解耦特征與特征之間的關(guān)系,每個(gè)特征都視為單獨(dú)的條件假設(shè):
n代表的特征個(gè)數(shù),根據(jù)后驗(yàn)概率帶入貝葉斯定理可以得到:
再把特征條件獨(dú)立性帶入到公式當(dāng)中得到以下的式子,就得到了決策分類器:
可以看出,X的歸類方式是由x屬于哪一個(gè)類別的概率最大來決定的,決策函數(shù)改寫成為:
我們來舉個(gè)通俗易懂的栗子吧,不然大家看著一堆公式也不太好理解,假如小明過往出門的依照以下的規(guī)則分布:
現(xiàn)在有一天(x1=晴朗,x2=工作日),求小明這一天是否出門?
=(2/5*2/5*3/5)/(3/5*3/5)=0.267,同理我們得到P(不出門|晴朗,工作日)=0.4
P(不出門|晴朗,工作日)> P(出門|晴朗,工作日),因此我們判定小明這一天多半是不出門的;
3)樸素貝葉斯校準(zhǔn)與屬性值處理
① 拉普拉斯校準(zhǔn)
p(x) 為0的時(shí)候,也就是某個(gè)特征下,樣本數(shù)量為0。則會(huì)導(dǎo)致y = 0;所以x需要引入Laplace校準(zhǔn),在所有類別樣本計(jì)數(shù)的時(shí)候加1,這樣可以避免有個(gè)式子P(X)為0帶來最終的y = 0。
② 屬性特征處理
以上都是介紹的特征離散值可以直接進(jìn)行樣本數(shù)量統(tǒng)計(jì),統(tǒng)計(jì)概率值;如果是連續(xù)值,可以通過高斯分布的方式計(jì)算概率。
4)樸素貝葉斯的優(yōu)缺點(diǎn)
優(yōu)點(diǎn):
- 堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),適合對(duì)分類任務(wù),有穩(wěn)定分類效率;
- 結(jié)果易解釋,算法比較簡單,常常用于文本分類;
- 小規(guī)模數(shù)據(jù)表現(xiàn)好,能處理分類任務(wù),適合實(shí)時(shí)新增的樣本訓(xùn)練。
缺點(diǎn):
- 需要先驗(yàn)概率輸入;
- 對(duì)輸入的數(shù)據(jù)表達(dá)形式敏感,分類決策也存在錯(cuò)誤率;
- 假設(shè)了樣本獨(dú)立性的先決條件,如果樣本之間存在一定關(guān)聯(lián)就會(huì)明顯分類干擾。
二、策略產(chǎn)品必知機(jī)器學(xué)習(xí)系列干貨總結(jié)
給策略產(chǎn)品、運(yùn)營講機(jī)器學(xué)習(xí)系列到這里就結(jié)束了,該系列的文章目的是在為轉(zhuǎn)型策略產(chǎn)品,或者是已經(jīng)從事策略產(chǎn)品、策略運(yùn)營方向的同學(xué)通俗易懂的了解機(jī)器學(xué)習(xí)算法原理與思想。
很多文科同學(xué)/運(yùn)營會(huì)覺得看著策略公式就頭大,其實(shí)怎么去推導(dǎo)不是我介紹這篇文章的目的,理解核心的思想與應(yīng)用場景,如何和業(yè)務(wù)貼近服務(wù)才是關(guān)鍵,我們畢竟不是算法,需要間隔兩者工作職責(zé)和范圍邊界。
希望這個(gè)系列真正能做到普及策略產(chǎn)品經(jīng)理的工作,更深入淺出的普及到關(guān)于機(jī)器學(xué)習(xí)的知識(shí)。
本文由 @策略產(chǎn)品Arthur 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒評(píng)論,等你發(fā)揮!