欧美伊人久久大香线蕉,美女自慰在线观看毛片,四虎影视国产精品婷婷

AI產(chǎn)品經(jīng)理必懂算法：支持向量機(jī)SVM

2019-01-07

2 評論 4163 瀏覽 31 收藏

作為AI產(chǎn)品經(jīng)理必懂算法的第二篇，來了解一下支持向量機(jī)SVM算法，英文全稱是“Support Vector Machine”。在機(jī)器學(xué)習(xí)中，SVM是監(jiān)督學(xué)習(xí)下的二分類算法，可用于分類和回歸任務(wù)。

首先我們來玩兒一個分豆子的經(jīng)典游戲，可以想象一堆的紅豆、綠豆，散布在一個高維空間中，豆子的特征有多少，空間的維數(shù)就有多少。相應(yīng)的，各個豆子的位置就是其對應(yīng)各特征的坐標(biāo)值。如果想盡可能完美地一下把豆分開，SVM就是用來找到分豆神器的方法，換個比較專業(yè)的說法就是尋找最優(yōu)的“超平面”。

備注：超平面是純粹的數(shù)學(xué)概念，不是物理概念，它是平面中的直線、空間中的平面的推廣，只有當(dāng)維度大于3，才稱為“超”平面。

SVM的核心任務(wù)就是：構(gòu)建一個N-1維的分割超平面來實現(xiàn)對N維樣本數(shù)據(jù)放入劃分，認(rèn)定的分隔超平面兩側(cè)的樣本點(diǎn)分屬兩個不同類別。

我們還是從一個最為簡單的示例開始講起（二維平面）：

情況1：請大家觀察一下，A、B、C三條直線哪一條才是正確的分類邊界呢？顯而易見，只有A“完整”的區(qū)分了兩種數(shù)據(jù)的決策邊界。

情況2：與情況1不同的是，上圖中，A、B、C三條線都完整的區(qū)分了邊界，那我們應(yīng)該如何選擇呢？既然能分豆的工具這么多，那我們理所當(dāng)然應(yīng)該找一個最好的是不是？最佳答案應(yīng)該是B，因為B與邊數(shù)據(jù)的距離是最遠(yuǎn)的，之所以選擇邊距最遠(yuǎn)的線，是因為這樣它的容錯率更高，表現(xiàn)更穩(wěn)定，也就是說當(dāng)我們再次放入更多的豆的時候，出錯的概率更小。

那么由此推導(dǎo)出，SVM的分類方法，首先考慮的是正確分類；其次考慮的優(yōu)化數(shù)據(jù)到邊界的距離。

接下來更麻煩的情景出現(xiàn)了，請看下圖，這堆豆子要怎么分？如果這是在一個二維平面上，這些豆子應(yīng)該用一條什么線來劃分呢？

難道我們真的要在畫一條無限曲折的線去劃分嗎?如果再怎樣曲折還是無法區(qū)分又該怎么做呢？這就是線性不可分的情況，其實在現(xiàn)實生活中，大量的問題都線性不可分，而SVM正是處理這種線性不可分情況的好幫手。

處理這類問題的辦法就是，將二維平面轉(zhuǎn)化到一個三維空間，因為往往在低維空間下的非線性問題，轉(zhuǎn)化到高維空間中，就變成了線性問題。比如說上面的圖也許就變成了下方的情況。

如上圖所示，即三維樣本數(shù)據(jù)被二維平面劃分，在二維空間中的不可分問題也被轉(zhuǎn)換成了三維線性可分問題，可以被支持向量機(jī)處理?；谶@個思想，SVM采用核函數(shù)來實現(xiàn)低維空間到高維空間的映射，從而在一定程度上解決了低維空間線性不可分的問題。

下面我們簡述一下關(guān)于核函數(shù)的定義，以利于進(jìn)一步理解他的作用。

核函數(shù)：任意兩個樣本點(diǎn)在擴(kuò)維后的空間的內(nèi)積，如果等于這兩個樣本點(diǎn)在原來空間經(jīng)過一個函數(shù)后的輸出，那么這個函數(shù)就叫核函數(shù)。

作用：有了這個核函數(shù)，以后的高維內(nèi)積都可以轉(zhuǎn)化為低維的函數(shù)運(yùn)算了，這里也就是只需要計算低維的內(nèi)積，然后再平方。明顯問題得到解決且復(fù)雜度極大降低?？偠灾?，核函數(shù)它本質(zhì)上隱含了從低維到高維的映射，從而避免直接計算高維的內(nèi)積。

常用的核函數(shù)有如下一些：例如線性核函數(shù)、多項式核函數(shù)、徑向基核函數(shù)（RBF）、高斯核函數(shù)、拉普拉斯核函數(shù)、sigmoid核函數(shù)等等。

簡單的理解了SVM的原理，我們再來了解一下模型的訓(xùn)練過程。