線性回歸算法:用“線性外推”的思路做預(yù)測

0 評論 1630 瀏覽 19 收藏 7 分鐘

線性回歸可以理解為一個回歸算法,我們可以結(jié)合線性回歸算法來做預(yù)測值。這篇文章里,作者就總結(jié)了線性回歸算法的基本原理、應(yīng)用場景、優(yōu)劣勢等方面,一起來看看吧。

前兩篇文章我們介紹了兩個解決分類問題的算法:K近鄰和樸素貝葉斯,今天我們一起來學(xué)習(xí)回歸問題中最經(jīng)典的線性回歸(Linear Regression)算法。

一、基本原理

生活中,大家都排過隊(duì),我印象最深的應(yīng)該是排隊(duì)做核酸的隊(duì)伍,前后間隔一米,隨著做核酸的人越來越多,新來的人看到隊(duì)伍,都會自動排到隊(duì)伍的末尾,同樣間隔一米,大家“齊心協(xié)力”排出了一條長線。

有了這條長線之后,我們就可以對新來的人排隊(duì)的位置做出預(yù)測,這就是線性回歸的基本邏輯。

所以線性回歸算法的思路就是:根據(jù)已有的數(shù)據(jù)去尋找一條“直線”,讓它盡可能的接近這些數(shù)據(jù),再根據(jù)這條直線去預(yù)測新數(shù)據(jù)的結(jié)果。

那么具體要怎么找這條“直線”呢?初中數(shù)學(xué)里描述一條直線時,用的是一元一次方程:y=ax+b,這里的a表示直線的斜率,b表示截距,如下圖所示:

以排隊(duì)為例,我們已知x是人的順序,y是排的位置,將已有的x和y數(shù)據(jù)代入到公式中,可以得到一組合適a和b的值來描述這條直線,也就是我們找到了這條直線的分布。

排隊(duì)的例子比較簡單,只有一個x變量,在實(shí)際的應(yīng)用中,會有很多個影響結(jié)果的變量,比如預(yù)測貸款額度時,會有工資、是否有房等變量,用線性回歸的思路解決類似的問題,就要構(gòu)建多元回歸方程了,公式也就變成了 y = a1x1 + a2x2 + … + b。

當(dāng)有兩個變量時,線性回歸的分布也就不是一條簡單的直線了,而是一個平面,如下圖所示:

如果有更多的變量,分布就是一個超平面,找到它的分布也會變得更復(fù)雜。

二、如何計算最優(yōu)解

如果每個人的站位(實(shí)際值)距離理想站位(預(yù)測值)的距離(誤差)最小,那就說明我們得到的線性回歸分布是最優(yōu)解。

機(jī)器學(xué)習(xí)中,評價模型的預(yù)測值和實(shí)際值差異的公式叫做損失函數(shù),損失函數(shù)值越小,模型性能越好。

平方殘差和就是一種場景的損失函數(shù),其計算公式為 loss=SUM(真實(shí)值-預(yù)測值)2,就是把每個節(jié)點(diǎn)的預(yù)測差求平方再求和,前面回歸模型評估的文章里提到的MSE就是平方殘差和除以樣本數(shù)量。

三、應(yīng)用場景

線性回歸的應(yīng)用場景非常廣泛,只要數(shù)據(jù)是符合線性分布的,理論上都可以用線性回歸來進(jìn)行預(yù)測:

  • 預(yù)測房價:通過分析房屋特征(如面積、位置、房間數(shù)量等)與價格之間的關(guān)系。
  • 預(yù)測員工績效:通過分析員工的教育背景、工作經(jīng)驗(yàn)、培訓(xùn)等因素與績效之間的關(guān)系。
  • 營銷分析:分析市場調(diào)研數(shù)據(jù),預(yù)測產(chǎn)品銷售量,并確定哪些因素對銷售量有顯著影響。
  • 交通規(guī)劃:預(yù)測交通流量,通過分析道路特征、人口密度等因素與交通流量之間的關(guān)系。
  • 環(huán)境科學(xué):分析環(huán)境數(shù)據(jù),如氣候變化、污染物排放等因素與生態(tài)系統(tǒng)的影響。

四、優(yōu)缺點(diǎn)

線性回歸算法的優(yōu)點(diǎn):

  • 簡單而直觀:易于理解和解釋,適用于初學(xué)者入門。
  • 計算效率高:計算速度較快,適用于大規(guī)模數(shù)據(jù)集。
  • 可解釋性強(qiáng):可以提供每個特征對目標(biāo)變量的影響程度,有助于理解變量之間的關(guān)系。
  • 可擴(kuò)展性強(qiáng):可以通過添加交互項(xiàng)、多項(xiàng)式特征等進(jìn)行擴(kuò)展,以適應(yīng)更復(fù)雜的數(shù)據(jù)模式。

線性回歸算法的缺點(diǎn):

  • 僅適用于線性關(guān)系:線性回歸假設(shè)自變量與因變量之間存在線性關(guān)系,對于非線性關(guān)系的數(shù)據(jù)擬合效果較差。
  • 對異常值敏感:線性回歸對異常值較為敏感,異常值的存在可能會對模型的擬合產(chǎn)生較大影響。
  • 忽略了特征之間的復(fù)雜關(guān)系:線性回歸無法捕捉到特征之間的非線性、交互作用等復(fù)雜關(guān)系。
  • 對多重共線性敏感:當(dāng)自變量之間存在高度相關(guān)性時,線性回歸模型的穩(wěn)定性和可靠性可能會受到影響。

五、總結(jié)

本文我們介紹了線性回歸算法的原理、應(yīng)用場景和優(yōu)缺點(diǎn),線性回歸是一個回歸算法,常用來做預(yù)測值,和之前介紹的分類模型的輸出是有區(qū)別的,需要注意一下。

下篇文章,我們來聊一聊邏輯回歸算法,敬請期待。

本文由 @AI小當(dāng)家 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!