一文讀懂AI基礎(chǔ)知識(shí):核心流派、算法原理與實(shí)戰(zhàn)解析

0 評(píng)論 2045 瀏覽 4 收藏 20 分鐘
🔗 产品经理的核心价值是能够准确发现和满足用户需求,把用户需求转化为产品功能,并协调资源推动落地,创造商业价值

在當(dāng)今科技飛速發(fā)展的時(shí)代,人工智能(Artificial Intelligence)作為模擬人類智能的前沿科技,是最具影響力的技術(shù)之一,其核心在于通過(guò)算法與數(shù)據(jù)驅(qū)動(dòng)實(shí)現(xiàn)感知、學(xué)習(xí)與決策能力。人工智能廣泛應(yīng)用于各個(gè)領(lǐng)域,是第四次工業(yè)革命的核心技術(shù)驅(qū)動(dòng)力。本文將深入淺出地介紹 AI 的基礎(chǔ)知識(shí),包括流派、算法思想、機(jī)器學(xué)習(xí)的任務(wù)類型與工作流程、以及其中涉及的數(shù)據(jù)和數(shù)學(xué)知識(shí),并以鳶尾花分類為案例,拆解機(jī)器學(xué)習(xí)過(guò)程,幫助大家了解理論與實(shí)踐相結(jié)合的知識(shí)體系。

一、人工智能流派

人工智能(Artificial Intelligence)并不是簡(jiǎn)單的“投入多少人工,就能產(chǎn)生多少智能”,它是通過(guò)算法與數(shù)據(jù)來(lái)實(shí)現(xiàn)智能化的決策。人工智能的算法代價(jià)很高,它不能解決所有問(wèn)題,所有的智能都需要通過(guò)野蠻的數(shù)據(jù)計(jì)算來(lái)置換,從工程應(yīng)用的角度來(lái)說(shuō),優(yōu)先選擇簡(jiǎn)單有效的方式,人工智能是最后的選擇。人工智能主要有三大流派:

行為主義人工智能

擁有一套自動(dòng)控制系統(tǒng),能感知外界的變化,并自動(dòng)做出相應(yīng)的反饋,比如工業(yè)機(jī)器人,包括:機(jī)械臂、機(jī)器人、機(jī)器狗、無(wú)人機(jī)等,還有比較熱門的具身智能。

符號(hào)主義人工智能

最典型的應(yīng)用是專家系統(tǒng),缺點(diǎn)是泛化能力不足,比較依賴知識(shí)圖譜、大模型+知識(shí)庫(kù),需人工構(gòu)建知識(shí)庫(kù),難以處理模糊的規(guī)則及超出知識(shí)庫(kù)之外的情況。

聯(lián)結(jié)主義人工智能

聯(lián)結(jié)主義主張模擬人腦設(shè)計(jì),通過(guò)模仿人類的大腦,用全連接方式代替機(jī)器學(xué)習(xí),深度學(xué)習(xí)就是聯(lián)結(jié)主義人工智能的典型應(yīng)用,包括用卷積網(wǎng)絡(luò)用來(lái)生成圖像視頻、循環(huán)神經(jīng)網(wǎng)絡(luò)和多頭(自)注意力機(jī)制對(duì)應(yīng)時(shí)序數(shù)據(jù)、基于transformer架構(gòu)的GPT模型等。特點(diǎn)是泛化能力強(qiáng),善于處于非線性問(wèn)題。

融合統(tǒng)一是發(fā)展趨勢(shì)

大模型對(duì) NLP 的整合、多模態(tài)對(duì) CV 和 NLP 的整合,以及具身智能(動(dòng)作+多模態(tài)大模型)的發(fā)展,都在一定程度上推動(dòng)著人工智能的加速融合,理論上聯(lián)結(jié)主義用數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)、符號(hào)主義用知識(shí)約束推理、行為主義用環(huán)境感知迭代,而現(xiàn)實(shí)任務(wù)往往需要三者結(jié)合,人們需要的是具有自主感知、認(rèn)知、決策、學(xué)習(xí)、執(zhí)行以及社會(huì)協(xié)作能力的通用人工智能體,這種“混合智能”更接近人類的多維度認(rèn)知方式。

二、人工智能算法思想

在數(shù)學(xué)當(dāng)中有函數(shù)對(duì)應(yīng)關(guān)系:y=f(x),在人工智能領(lǐng)域中黑盒思想是我們理解計(jì)算方式的第一法則,給計(jì)算機(jī)指定一個(gè)解決思路,具體的解決過(guò)程是計(jì)算機(jī)去完成。即有輸入:x,有轉(zhuǎn)換關(guān)系:F(x),有輸出:y。

傳統(tǒng)算法是基于規(guī)則的算法,適用于規(guī)則比較清晰的場(chǎng)景,比如在多輪對(duì)話任務(wù)的智能客服系統(tǒng),因?yàn)橐?guī)則是人為規(guī)定的,所以這類系統(tǒng)對(duì)人的業(yè)務(wù)熟練度要求比較高,但是對(duì)計(jì)算機(jī)的性能要求相對(duì)低,特點(diǎn)是執(zhí)行速度快,算法和時(shí)間、空間的復(fù)雜度低。

人工智能算法是基于數(shù)據(jù)的經(jīng)過(guò)訓(xùn)練和推理的算法。訓(xùn)練階段:從老數(shù)據(jù),一般叫訓(xùn)練集中挖掘規(guī)律,構(gòu)建算法規(guī)則,然后進(jìn)行推理,即把規(guī)律作用于新數(shù)據(jù)(測(cè)試集),這種經(jīng)過(guò)訓(xùn)練推理的方法適用于規(guī)則比較模糊的場(chǎng)景,特點(diǎn)是執(zhí)行速度慢,對(duì)計(jì)算機(jī)性能的要求很高,需要大量的數(shù)據(jù)與算力,對(duì)算法工程師的要求低,執(zhí)行效果的魯棒性特別好,泛化能力極強(qiáng),但解釋性差。

三、機(jī)器學(xué)習(xí)(Machine Learning)的任務(wù)類型與學(xué)習(xí)方式

廣義的機(jī)器學(xué)習(xí)主要是一個(gè)研究如何讓計(jì)算機(jī)通過(guò)數(shù)據(jù)學(xué)習(xí)規(guī)律,并利用這些規(guī)律進(jìn)行預(yù)測(cè)和決策的過(guò)程。這里的Machine并非物理意義上的機(jī)器,可以理解為計(jì)算機(jī)軟硬件組織;Learning可以理解為一個(gè)系統(tǒng)或平臺(tái)經(jīng)歷了某些過(guò)程后,性能得到提升,這個(gè)過(guò)程為學(xué)習(xí),是個(gè)動(dòng)態(tài)過(guò)程。

3.1 機(jī)器學(xué)習(xí)任務(wù)類型

分類:將數(shù)據(jù)樣本劃分到定義好的類別中,比如鳶尾花根據(jù)花瓣和花萼的屬性,將它分為3種類別,類別標(biāo)簽可以用0、1、2來(lái)表示,通常放在樣本數(shù)據(jù)的最后一列。

回歸:根據(jù)輸入特征來(lái)預(yù)測(cè)一個(gè)值,跟分類任務(wù)不同,回歸任務(wù)預(yù)測(cè)的值通常是連續(xù)的值,比如根據(jù)房子的城市、地段、大小等預(yù)測(cè)房?jī)r(jià)。

聚類:將數(shù)據(jù)樣本劃分成不同的組,同一組的樣本具有較高的相似性,比如將具有相似消費(fèi)行為的客戶分成一組,以便企業(yè)進(jìn)行精準(zhǔn)運(yùn)營(yíng)。

3.2 機(jī)器學(xué)習(xí)的學(xué)習(xí)方式

人工智能要按照訓(xùn)練數(shù)據(jù)有無(wú)標(biāo)簽可分為有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)

有監(jiān)督學(xué)習(xí):有特征、有標(biāo)簽,在分類問(wèn)題中,標(biāo)簽是在有限的類別中選擇一個(gè),比如:性別、左右、對(duì)錯(cuò)等,在鳶尾花分類任務(wù)中,共幾百個(gè)樣本,4個(gè)特征,3個(gè)類別;回歸問(wèn)題的標(biāo)簽為連續(xù)變量,通常用來(lái)預(yù)測(cè)一個(gè)值:比如:身高、年齡、股價(jià)等。

無(wú)監(jiān)督學(xué)習(xí):有特征、無(wú)標(biāo)簽,即通過(guò)模型自主從數(shù)據(jù)中提取信息,比如降維算法、聚類算法,通過(guò)無(wú)監(jiān)督學(xué)習(xí)可以將高維數(shù)據(jù)降維,去除冗余信息,降低計(jì)算成本。

自監(jiān)督學(xué)習(xí):base大模型的訓(xùn)練進(jìn)行學(xué)習(xí),讓模型自動(dòng)從數(shù)據(jù)中挖掘出有價(jià)值的特征,比如利用大量無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)到通用的特征表示后再進(jìn)行進(jìn)行微調(diào),提升模型的性能。

四、機(jī)器學(xué)習(xí)的工作流程

如果決定要用人工智能去解決一個(gè)問(wèn)題,具體的步驟為:

1.分析問(wèn)題

從宏觀角度分析問(wèn)題,確定輸入和輸出以及任務(wù)類型,比如做一個(gè)中英翻譯器,輸入中文,輸出英文;房?jī)r(jià)預(yù)測(cè)輸入房子特征信息,輸出價(jià)格;人臉檢測(cè)輸入圖片,輸出檢測(cè)到的人臉。

2. 采集數(shù)據(jù)

根據(jù)輸入和輸出構(gòu)建數(shù)據(jù)集,在機(jī)器學(xué)習(xí)領(lǐng)域,數(shù)據(jù)集通常以二維表格形式呈現(xiàn),一行一個(gè)樣本,一列一個(gè)特征,最后一列是標(biāo)簽或回歸數(shù)值。按照訓(xùn)練數(shù)據(jù)的特點(diǎn),可選擇對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,常見(jiàn)的機(jī)器學(xué)習(xí)數(shù)據(jù)預(yù)處理方法有:

  • 中心化:數(shù)據(jù)范圍較大、偏移某個(gè)基準(zhǔn)明顯,減去均值使數(shù)據(jù)范圍圍繞0點(diǎn)波動(dòng),這樣可以減少數(shù)據(jù)的偏移影響,讓模型更容易學(xué)習(xí)數(shù)據(jù)的規(guī)律。
  • 標(biāo)準(zhǔn)化:特征尺度、量綱不同、且算法關(guān)注分布規(guī)律時(shí),將數(shù)據(jù)減均值再除以標(biāo)準(zhǔn)差,縮放到均值為0、標(biāo)準(zhǔn)差1的正態(tài)分布,確保不同特征在模型訓(xùn)練中具有相同的重要性。
  • 歸一化:不同數(shù)據(jù)取值范圍懸殊,例如,一個(gè)特征的取值范圍在 0 到 1000 之間,而另一個(gè)特征的取值范圍在 0 到 1 之間,將每個(gè)樣本數(shù)據(jù)減去樣本最小值再除以樣本的最大值減去最小值,會(huì)將數(shù)據(jù)壓縮到[0,1]之間,使得不同特征在模型訓(xùn)練中具有相同的權(quán)重,有助于提高模型的收斂速度和穩(wěn)定性。

3. 模型選擇與訓(xùn)練

根據(jù)任務(wù)和數(shù)據(jù)特點(diǎn)遴選一種合適的算法,將處理好的數(shù)據(jù)給算法去學(xué)習(xí),完成模型的訓(xùn)練,挖掘出輸入與輸出之間具體的映射關(guān)系。常見(jiàn)的分類算法有KNN:K值鄰近算法、GNB:高斯貝葉斯算法、DT:決策樹(shù)算法、SVM:支持向量機(jī)算法、RF:隨機(jī)森林算法、EL:集成學(xué)習(xí)算法等,在實(shí)際案例中需要遵循引入模型、構(gòu)建模型、訓(xùn)練模型的過(guò)程。

4. 模型評(píng)估

對(duì)訓(xùn)練的模型進(jìn)行驗(yàn)證和調(diào)參工作,通過(guò)各種評(píng)估指標(biāo)來(lái)衡量模型的效果,如準(zhǔn)確率、召回率、F1 值等,找到預(yù)測(cè)效果最理想的模型參數(shù)。

5. 上線部署

工程部署、系統(tǒng)集成,進(jìn)行本地化部署、云端部署或者邊緣部署,云端部署適合數(shù)據(jù)量較大、計(jì)算資源需求高的場(chǎng)景;邊緣部署更注重實(shí)時(shí)性和數(shù)據(jù)隱私,適用于對(duì)響應(yīng)速度要求高的場(chǎng)景,如政務(wù)系統(tǒng)、智能安防監(jiān)控等。

6. 模型推理

把規(guī)則作用于新的數(shù)據(jù)進(jìn)行預(yù)測(cè),并依據(jù)新的數(shù)據(jù)不斷迭代升級(jí)。

機(jī)器學(xué)習(xí)的經(jīng)典案例:鳶尾花分類任務(wù)

1. 分析問(wèn)題,確定輸入和輸出

在人工智能算法中,所有的實(shí)體都需要變成數(shù)字才能被計(jì)算和預(yù)測(cè),如何將一個(gè)實(shí)體數(shù)字化呢?一般用這個(gè)實(shí)體的特征或者屬性來(lái)描述,比如:顏色、大小、重量等,這就需要對(duì)業(yè)務(wù)有足夠的了解,比如鳶尾花的四個(gè)屬性(特征):花瓣長(zhǎng)、花瓣寬、花萼長(zhǎng)、花萼寬,最后一列為類別編號(hào)。

2. 數(shù)據(jù)采集與預(yù)處理

比如每個(gè)類別各采集50朵花,按照一行一個(gè)樣本,一列一個(gè)特征組成特征矩陣。對(duì)樣本進(jìn)行切割,分為訓(xùn)練集、測(cè)試集和驗(yàn)證集,通常會(huì)按照60:20:20 或者70:15:15的比例來(lái)劃分。本次案例分為訓(xùn)練集和測(cè)試集,測(cè)試集占20%,并確保每次切分的數(shù)據(jù)保持一致。

3. 選擇算法

完成輸入到輸出的映射,我們選擇 KNN 算法進(jìn)行訓(xùn)練。KNN 算法通過(guò)計(jì)算測(cè)試集與訓(xùn)練集每個(gè)特征之間的距離,選擇距離最近的 K 個(gè)樣本,再根據(jù)這 K 個(gè)樣本的類別來(lái)判斷測(cè)試樣本的類別。

4. 模型評(píng)估與部署

用準(zhǔn)確率評(píng)估鳶尾花分類任務(wù),最終得到的準(zhǔn)確率為96.7%,這是一個(gè)比較不錯(cuò)的數(shù)據(jù),表明 KNN 算法在該任務(wù)上表現(xiàn)良好,可以應(yīng)用到相似場(chǎng)景中,比如在農(nóng)業(yè)鄰域中,通過(guò)提取植物的特征(如葉片形狀、顏色、花朵特征等)對(duì)不同品種進(jìn)行分類。

五、人工智能中的數(shù)據(jù)和數(shù)學(xué)知識(shí)

5.1 python數(shù)據(jù)三劍客

人工智能依賴向量化和矩陣化編程,與線性代數(shù)密切相關(guān),比如經(jīng)常用到矩陣乘法,計(jì)算過(guò)程需要高性能的計(jì)算資源,在數(shù)據(jù)科學(xué)中按照維度定義和處理數(shù)據(jù)。python為人工智能提供了豐富的庫(kù)和工具,最常用的庫(kù)有:

  • Numpy:進(jìn)行科學(xué)計(jì)算,向量化、矩陣化計(jì)算,ndarray是 NumPy 庫(kù)的核心數(shù)據(jù)結(jié)構(gòu),是一個(gè)具有相同數(shù)據(jù)類型(如整數(shù)、浮點(diǎn)數(shù)等)和固定大小的多維容器,容器中每個(gè)元素都有相同的數(shù)據(jù)類型,并且在內(nèi)存中是連續(xù)存儲(chǔ)的。例如,一維的ndarray就像一個(gè)列表,二維的ndarray類似矩陣,而更高維度的ndarray可以表示更復(fù)雜的數(shù)據(jù)結(jié)構(gòu),在ndarray結(jié)構(gòu)中,標(biāo)量(scalar)、矢量(vector)、矩陣(matrix)和張量(tensor),分別表示0維、1維、二維和三維以上的數(shù)據(jù)。
  • Matplotlib:對(duì)數(shù)據(jù)可視化,用一行代碼就能實(shí)現(xiàn)繪圖,直觀理解數(shù)據(jù)的分布和特征。
  • Pandas:二維數(shù)據(jù)分析神器,提供了高效的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)處理函數(shù),方便對(duì)二維數(shù)據(jù)的讀取、清洗、轉(zhuǎn)換等操作。

深度學(xué)習(xí)常用的框架有pytorch、tensorflow,pytorch可在官網(wǎng)下載,支持安裝gpu和cpu版本。

5.2 數(shù)學(xué)知識(shí)

矩陣

人工智能中處理的大量數(shù)據(jù)通常以矩陣形式存儲(chǔ)和表示,機(jī)器學(xué)習(xí)中對(duì)矩陣的處理包括:

  • 矩陣分解:用于抽取信息,比如矩陣的特征向量和特征值。
  • 特征分解:進(jìn)行特征分解的矩陣必須是方陣,奇異值分解可以適用于任何矩陣,在PCA降維算法中,能幫助提取數(shù)據(jù)的主要特征,降低數(shù)據(jù)的維度,從而提高算法的效率和性能。假設(shè)有三個(gè)矩陣,分別為A:[m, k],B:[k, n],C:[m, n],則AB=C。

樣本相似度度量

1)歐氏距離

建立個(gè)直角坐標(biāo)系,把每個(gè)樣本看作一個(gè)點(diǎn),有多少特征就有多少維度的歐氏空間,歐氏距離是歐氏空間中用于衡量?jī)蓚€(gè)點(diǎn)之間距離的一種度量方式,比如在聚類算法中衡量數(shù)據(jù)點(diǎn)之間的相似性;在鳶尾花分類任務(wù)中,遍歷計(jì)算測(cè)試集與訓(xùn)練集中各個(gè)樣本的歐氏距離,找出與測(cè)試集樣本最接近的K個(gè)點(diǎn),距離越小越相似。

在二維平面上,設(shè)兩個(gè)點(diǎn)α(x1, x2)、β(x3, x4),

則α和β兩點(diǎn)之間的歐氏距離為:

2)點(diǎn)乘積和余弦相似度

每個(gè)樣本可以看作一個(gè)向量空間內(nèi)的向量,樣本的相似度度量方法可以用余弦相似度和點(diǎn)乘積來(lái)計(jì)算

向量的模(長(zhǎng)度):

點(diǎn)乘積:

點(diǎn)乘積的值不僅與向量的模(長(zhǎng)度)有關(guān),還和向量的方向相關(guān),當(dāng)兩向量夾角為0時(shí),點(diǎn)乘積值最大,兩個(gè)向量越相似,反之亦然。

余弦相似度:

余弦取值范圍在[?1,1]之間,值越接近 1 表示兩個(gè)向量的方向越趨同,則樣本越相似;值越接近 -1 表示兩個(gè)向量方向相反;值接近 0 表示兩個(gè)向量近乎正交,即樣本差異較大。

正太分布

在現(xiàn)實(shí)世界中,許多數(shù)據(jù)都近似服從正態(tài)分布,在機(jī)器學(xué)習(xí)中,我們把每個(gè)特征數(shù)據(jù)看作相互獨(dú)立,通常也假設(shè)數(shù)據(jù)服從正態(tài)分布,均值和方差是描述正態(tài)分布的關(guān)鍵參數(shù),在計(jì)算時(shí)可以簡(jiǎn)化模型計(jì)算的復(fù)雜度。除此之外,在數(shù)據(jù)預(yù)處理時(shí),對(duì)于數(shù)據(jù)的中心化、標(biāo)準(zhǔn)化和歸一化處理也需要均值和標(biāo)準(zhǔn)差。

均值:均值是一組數(shù)據(jù)的算術(shù)平均數(shù),反映了特征數(shù)據(jù)的中心位置,對(duì)于一組數(shù)據(jù)x1, x2,…xn,其均值為:

方差:方差用來(lái)衡量一組數(shù)據(jù)的離散程度,方差越大,數(shù)據(jù)分布越分散;方差越小,數(shù)據(jù)分布越集中。對(duì)于一組數(shù)據(jù)x1, x2,…xn,其方差為:

上圖顯示均值都為0時(shí),擁有不同方差數(shù)據(jù)的分布特點(diǎn),其中x代表均值,var代表方差

理論上我們需要求出所有數(shù)據(jù)的準(zhǔn)確方差值,在實(shí)際計(jì)算場(chǎng)景中,數(shù)據(jù)量往往非常大,獲取和計(jì)算數(shù)據(jù)成本太高,需用樣本方差代替總體方差去計(jì)算。整體方差是在所有數(shù)據(jù)參與的前提下計(jì)算出的值,樣本方差是從總體中抽取一部分?jǐn)?shù)據(jù)作為樣本。

標(biāo)準(zhǔn)差:標(biāo)準(zhǔn)差是方差的平方根,與方差的作用類似也是用于衡量數(shù)據(jù)的離散程度,正太分布以均值為中心,標(biāo)準(zhǔn)差越大,數(shù)據(jù)分布越分散,圖像越扁平;方差越小,數(shù)據(jù)分布越集中,圖像越窄長(zhǎng)。對(duì)于一組數(shù)據(jù)x1, x2,…xn,其標(biāo)準(zhǔn)差為:

本文由 @AI產(chǎn)品薇薇 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!
专题
45399人已学习10篇文章
什么是社群运营?社群运营怎么做?社群运营哪些坑?
专题
12425人已学习13篇文章
发票是财务中必不可少的物品,那发票系统该如何设计呢?本专题的文章分享了发票系统设计指南。
专题
15965人已学习13篇文章
B端运营应该是产品商业化的最终结果。本专题的文章作者结合自身B端运营经验,进行B端实操项目方法论分享。
专题
13029人已学习12篇文章
要想判断一个行业的趋势,就要做好行业分析。本专题的文章分享了如何撰写行业分析报告。
专题
15794人已学习15篇文章
本专题的文章分享了B端组件的设计指南。