AI產(chǎn)品之路:機器學習(二)

關(guān)于機器學習,你了解多少呢?
上篇文章里,主要分享了關(guān)于機器學習、深度學習的基本概念和他們之間的區(qū)別,最后介紹了有監(jiān)督學習方式中的回歸。其實我在最后留下一點小問題,那就是如果數(shù)據(jù)不是線性關(guān)系的話,怎么回歸?這篇文章就會回答這個問題,主要分享監(jiān)督學習和非監(jiān)督學習中的三大類:
- 監(jiān)督學習方式下,回歸中的“非線性回歸”
- 監(jiān)督學習方式下的“分類”
- 非監(jiān)督學習方式的“聚類”
- 關(guān)于機器學習的復盤
1.非線性回歸
直逼主題,上篇我們假定的數(shù)據(jù)都是線性的,那么最后當然可以回歸出y=wx+b這樣的線性方程,可我們最終是想通過機器學習解決現(xiàn)實問題,而現(xiàn)實中的很多數(shù)據(jù)不可能單單是線性關(guān)系,如果強行使用,那么算法模型只能是欠擬合,誤差非常大。
這里我們就著重說一下,回歸中的非線性回歸,而其中應用最多的就是“邏輯回歸”。
先上公式:
看到這個公式先別慌,其中你們注意(wx+b)是我們上篇已經(jīng)熟悉的線性回歸方程,把它想象成一個整體,帶入到這個新公式中,代表著什么呢?下面我們看這個公式的函數(shù)圖
可以看到,在x可以?。?無窮小,+無窮大)的區(qū)間里,整個y值是的區(qū)間只能是【0,1】之間。具體的數(shù)學函數(shù)轉(zhuǎn)換如果搞不明白完全沒關(guān)系,只需要回憶一下上一篇中“線性回歸”的思想,通過找到損失函數(shù)Loss最小的對應wx+b中對應的w與b的值。而這個邏輯回歸函數(shù)的作用,在僅僅是把x多映射一次,即讓輸出的y值恒定落在【0,1】這個區(qū)間而已,其回歸思想的本質(zhì)并沒有改變。
那么為什么要加入這個函數(shù)呢?其實是方便做概率判斷:
因為這個函數(shù)會讓x無論輸入的是什么,最終輸出的y肯定是0-1之間的值,那么越接近1,我們可以認為越接近“1”代表的特征,越接近0,我們認為越接近“0”代表的特征。而“0”與“1”具體要賦予什么意義,就看我們到底想通過機器學習去識別什么了。
2.監(jiān)督學習–“分類”
先感性談?wù)劇胺诸悺边@個概念。就是我們希望有一臺機器,可以幫助我們進行圖像的分類識別。比如我這里有一堆混雜著“魚”、“狗”和“貓”的圖片,光靠人力完成是非常困難的,我想通把這些大量的數(shù)據(jù)輸入給計算機,它很快就能完成而不需要耗費我很長時間去一個一個挑選。但我們知道計算機天生不具備這樣的功能,就可以通過機器學習中的“分類”去完成。有了前面“回歸”機器學習的思想基礎(chǔ),這個應該很好理解了。
即我會找到大量的“魚”“貓”和“狗”的圖片,每種都對應好標簽比如“1”“2”“3”。這時候我們拿這些數(shù)據(jù)去訓練分類器。分類器的訓練過程和線性回歸基本很相似:
- 建立映射關(guān)系的假說即 ?y=wx+b
- 找到全局損失函數(shù)Loss與我們想要求解的w與b的映射關(guān)系方程
- 找到Loss符合誤差范圍的w與b (訓練過程結(jié)束)
- 拿著訓練好的模型去用驗證集驗證
3.非監(jiān)督學習–“聚類”
前面我們介紹的線性回歸、非線性回歸和分類,都屬于“監(jiān)督學習方式”,要在訓練數(shù)據(jù)之前進行標記,這樣的數(shù)據(jù)模型才可以被訓練。但數(shù)據(jù)量很大的時候,人工標注起來是非常困難的。
先回憶一下非監(jiān)督學習的定義:?獲得訓練的向量數(shù)據(jù)后沒有標簽的情況下,嘗試找出其內(nèi)部蘊含的一種關(guān)系的挖掘工作。而聚類,在感性的認知就是把特征形態(tài)相同或相近的聚合到一個概念類別下,把特征形態(tài)不同的分開。
聚類核心思想:通過對數(shù)據(jù)進行特征抽象和提取,轉(zhuǎn)換為空間中的向量,通過計算每個“向量”的距離,從遠近的角度去判定是否從屬一個類別。其本質(zhì)就是把現(xiàn)實世界中的特征,轉(zhuǎn)化為數(shù)學的空間向量,這樣我們就把現(xiàn)實的特征問題,轉(zhuǎn)化成了一個可能通過數(shù)學方式解決的“向量計算問題”。當然在具體計算的時候還涉及到“特征提取及轉(zhuǎn)換”的步驟(這也是深度學習的重要內(nèi)容)
舉個例子我這里有幾個概念,“卡車”、“汽車”、“飛機”和“人”,他們每個都可以用空間中的向量去表示,那么“卡車”與“汽車”的距離就應該是最近的,其次是“飛機”,因為他們都屬于“交通工具”這個大類,“汽車”與“人”代表的向量應該是空間中距離最遠的,這樣就是實現(xiàn)了現(xiàn)實世界概念特征的聚類。
4.機器學習的復盤
到這里已經(jīng)把機器學習中最重要的概念和原理大體講了一遍。其實發(fā)現(xiàn)并沒有特別難的樣子,主要在于理解機器學習的思想與基本原理。
其實機器學習(深度學習)都是手段,我們的目的是讓計算機可以對現(xiàn)實物理世界比如圖像、聲音、視頻等進行分類、識別甚至一定程度的理解和反饋??捎嬎銠C并不能像人類一樣可以進行抽象思考,而機器學習的本質(zhì),就是把這些物理世界的特征進行數(shù)學化,轉(zhuǎn)換成計算機可以聽懂的語言,這樣它就可以對這些“數(shù)學化的物理特征”進行計算了,只不過在我們看來,它好像是通過像人一樣學習和思考似的。
對于如何判定機器學習的結(jié)果,其本質(zhì)也是轉(zhuǎn)換成數(shù)學中的誤差問題進行求解,找到符合我們要求的誤差,即認為機器學習完成。
最后我們記住一個公式: y=wx+b,看似簡單的公式,后面在神經(jīng)網(wǎng)絡(luò)和深度學習中會經(jīng)常用到,而且無論是學習方式的轉(zhuǎn)換,還是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的變換,其最終目的,簡單理解的話都可以認為是建立損失函數(shù)Loss與w和b的一個映射關(guān)系,找到Loss符合我們要求的對應的w和b。(當然怎么找,這就非常復雜了,我也在學習中)
機器學習的部分就分享到這里,下一篇會更新有關(guān)“神經(jīng)元和神經(jīng)網(wǎng)絡(luò)”的知識,這是了解深度學習的基石。
相關(guān)閱讀
本文由 @?Free 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自PEXELS,基于CC0協(xié)議
監(jiān)督學習–“分類”這個模塊標注,并非是給不同圖標注1、2、3。而是標注上圖片里的生物特征,幾個爪子什么顏色眼睛之類的。
非監(jiān)督學習–“聚類”這個模塊由于數(shù)據(jù)量大需要用非監(jiān)督學習,是對一個品類(如貓這個品類)需要標注的字端及其復雜,人工識別標注幾張圖就要非常非常久。
樓主看下,我理解的對么 ??
兩篇文章仔細看下來,說不清楚具體學到了什么。但總算對機器學習有個大致了解,希望以后能成為AI產(chǎn)品經(jīng)理一員。多謝分享~