線(xiàn)性回歸算法:用“線(xiàn)性外推”的思路做預(yù)測(cè)

0 評(píng)論 2143 瀏覽 19 收藏 7 分鐘
🔗 B端产品经理需要更多地关注客户的商业需求、痛点、预算、决策流程等,而C端产品经理需要更多地关注用户的个人需求

線(xiàn)性回歸可以理解為一個(gè)回歸算法,我們可以結(jié)合線(xiàn)性回歸算法來(lái)做預(yù)測(cè)值。這篇文章里,作者就總結(jié)了線(xiàn)性回歸算法的基本原理、應(yīng)用場(chǎng)景、優(yōu)劣勢(shì)等方面,一起來(lái)看看吧。

前兩篇文章我們介紹了兩個(gè)解決分類(lèi)問(wèn)題的算法:K近鄰和樸素貝葉斯,今天我們一起來(lái)學(xué)習(xí)回歸問(wèn)題中最經(jīng)典的線(xiàn)性回歸(Linear Regression)算法。

一、基本原理

生活中,大家都排過(guò)隊(duì),我印象最深的應(yīng)該是排隊(duì)做核酸的隊(duì)伍,前后間隔一米,隨著做核酸的人越來(lái)越多,新來(lái)的人看到隊(duì)伍,都會(huì)自動(dòng)排到隊(duì)伍的末尾,同樣間隔一米,大家“齊心協(xié)力”排出了一條長(zhǎng)線(xiàn)。

有了這條長(zhǎng)線(xiàn)之后,我們就可以對(duì)新來(lái)的人排隊(duì)的位置做出預(yù)測(cè),這就是線(xiàn)性回歸的基本邏輯。

所以線(xiàn)性回歸算法的思路就是:根據(jù)已有的數(shù)據(jù)去尋找一條“直線(xiàn)”,讓它盡可能的接近這些數(shù)據(jù),再根據(jù)這條直線(xiàn)去預(yù)測(cè)新數(shù)據(jù)的結(jié)果

那么具體要怎么找這條“直線(xiàn)”呢?初中數(shù)學(xué)里描述一條直線(xiàn)時(shí),用的是一元一次方程:y=ax+b,這里的a表示直線(xiàn)的斜率,b表示截距,如下圖所示:

以排隊(duì)為例,我們已知x是人的順序,y是排的位置,將已有的x和y數(shù)據(jù)代入到公式中,可以得到一組合適a和b的值來(lái)描述這條直線(xiàn),也就是我們找到了這條直線(xiàn)的分布。

排隊(duì)的例子比較簡(jiǎn)單,只有一個(gè)x變量,在實(shí)際的應(yīng)用中,會(huì)有很多個(gè)影響結(jié)果的變量,比如預(yù)測(cè)貸款額度時(shí),會(huì)有工資、是否有房等變量,用線(xiàn)性回歸的思路解決類(lèi)似的問(wèn)題,就要構(gòu)建多元回歸方程了,公式也就變成了 y = a1x1 + a2x2 + … + b

當(dāng)有兩個(gè)變量時(shí),線(xiàn)性回歸的分布也就不是一條簡(jiǎn)單的直線(xiàn)了,而是一個(gè)平面,如下圖所示:

如果有更多的變量,分布就是一個(gè)超平面,找到它的分布也會(huì)變得更復(fù)雜。

二、如何計(jì)算最優(yōu)解

如果每個(gè)人的站位(實(shí)際值)距離理想站位(預(yù)測(cè)值)的距離(誤差)最小,那就說(shuō)明我們得到的線(xiàn)性回歸分布是最優(yōu)解。

機(jī)器學(xué)習(xí)中,評(píng)價(jià)模型的預(yù)測(cè)值和實(shí)際值差異的公式叫做損失函數(shù),損失函數(shù)值越小,模型性能越好。

平方殘差和就是一種場(chǎng)景的損失函數(shù),其計(jì)算公式為 loss=SUM(真實(shí)值-預(yù)測(cè)值)2,就是把每個(gè)節(jié)點(diǎn)的預(yù)測(cè)差求平方再求和,前面回歸模型評(píng)估的文章里提到的MSE就是平方殘差和除以樣本數(shù)量。

三、應(yīng)用場(chǎng)景

線(xiàn)性回歸的應(yīng)用場(chǎng)景非常廣泛,只要數(shù)據(jù)是符合線(xiàn)性分布的,理論上都可以用線(xiàn)性回歸來(lái)進(jìn)行預(yù)測(cè):

  • 預(yù)測(cè)房?jī)r(jià):通過(guò)分析房屋特征(如面積、位置、房間數(shù)量等)與價(jià)格之間的關(guān)系。
  • 預(yù)測(cè)員工績(jī)效:通過(guò)分析員工的教育背景、工作經(jīng)驗(yàn)、培訓(xùn)等因素與績(jī)效之間的關(guān)系。
  • 營(yíng)銷(xiāo)分析:分析市場(chǎng)調(diào)研數(shù)據(jù),預(yù)測(cè)產(chǎn)品銷(xiāo)售量,并確定哪些因素對(duì)銷(xiāo)售量有顯著影響。
  • 交通規(guī)劃:預(yù)測(cè)交通流量,通過(guò)分析道路特征、人口密度等因素與交通流量之間的關(guān)系。
  • 環(huán)境科學(xué):分析環(huán)境數(shù)據(jù),如氣候變化、污染物排放等因素與生態(tài)系統(tǒng)的影響。

四、優(yōu)缺點(diǎn)

線(xiàn)性回歸算法的優(yōu)點(diǎn):

  • 簡(jiǎn)單而直觀:易于理解和解釋?zhuān)m用于初學(xué)者入門(mén)。
  • 計(jì)算效率高:計(jì)算速度較快,適用于大規(guī)模數(shù)據(jù)集。
  • 可解釋性強(qiáng):可以提供每個(gè)特征對(duì)目標(biāo)變量的影響程度,有助于理解變量之間的關(guān)系。
  • 可擴(kuò)展性強(qiáng):可以通過(guò)添加交互項(xiàng)、多項(xiàng)式特征等進(jìn)行擴(kuò)展,以適應(yīng)更復(fù)雜的數(shù)據(jù)模式。

線(xiàn)性回歸算法的缺點(diǎn):

  • 僅適用于線(xiàn)性關(guān)系:線(xiàn)性回歸假設(shè)自變量與因變量之間存在線(xiàn)性關(guān)系,對(duì)于非線(xiàn)性關(guān)系的數(shù)據(jù)擬合效果較差。
  • 對(duì)異常值敏感:線(xiàn)性回歸對(duì)異常值較為敏感,異常值的存在可能會(huì)對(duì)模型的擬合產(chǎn)生較大影響。
  • 忽略了特征之間的復(fù)雜關(guān)系:線(xiàn)性回歸無(wú)法捕捉到特征之間的非線(xiàn)性、交互作用等復(fù)雜關(guān)系。
  • 對(duì)多重共線(xiàn)性敏感:當(dāng)自變量之間存在高度相關(guān)性時(shí),線(xiàn)性回歸模型的穩(wěn)定性和可靠性可能會(huì)受到影響。

五、總結(jié)

本文我們介紹了線(xiàn)性回歸算法的原理、應(yīng)用場(chǎng)景和優(yōu)缺點(diǎn),線(xiàn)性回歸是一個(gè)回歸算法,常用來(lái)做預(yù)測(cè)值,和之前介紹的分類(lèi)模型的輸出是有區(qū)別的,需要注意一下。

下篇文章,我們來(lái)聊一聊邏輯回歸算法,敬請(qǐng)期待。

本文由 @AI小當(dāng)家 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!
专题
14365人已学习13篇文章
数据仓库是所有产品的数据中心,公司体系下的所有产品产生的所有数据最终都流向数据仓库。本专题的文章分享了什么是数据仓库和如何搭建数据仓库。
专题
34761人已学习23篇文章
不懂心理学,怎么懂你的用户;不懂你的用户,又怎么做好产品的设计和运营。
专题
12265人已学习15篇文章
本专题的文章分享了如何制定业务指标?
专题
14884人已学习13篇文章
在产品的运营过程中,无论是产品、运营还是市场团队,都希望能清晰地了解用户的行为路径,通过用户行为分析,优化用户体验,实现更精准的运营和营销。
专题
13926人已学习12篇文章
一张逻辑清晰、层次明确的产品架构图,能够给观者讲述一个产品的业务流程、功能框架和设计思路,也是一个产品必不可少的可视化工具。
专题
15437人已学习13篇文章
说到“账号”,想必大家对于这个名词已经习以为常。现在市场上的大多数应用,都会有自己的账号体系。本专题的文章分享了如何搭建账号体系。