如何形象化地理解“AI、大模型、GPT”?
近來(lái),關(guān)于人工智能(AI)的討論此起彼伏,其中不可避免地涉及到一些術(shù)語(yǔ)和概念,然而用簡(jiǎn)單易懂的方式向非專(zhuān)業(yè)人士解釋是非常具有挑戰(zhàn)性的。作者嘗試把AI與人類(lèi)學(xué)習(xí)和成長(zhǎng)的類(lèi)比,通過(guò)將AI與人們熟悉的事物進(jìn)行比較的方式,簡(jiǎn)要介紹AI相關(guān)的原理、進(jìn)展和意義。歡迎閱讀~
自從ChatGPT橫空出世以來(lái),AI領(lǐng)域再次引起了廣泛關(guān)注。
最近,有關(guān)AI的討論絡(luò)繹不絕,其中不可避免地涉及到一些諸如“樣本、預(yù)訓(xùn)練、大模型”等概念和術(shù)語(yǔ)。
然而,要用淺顯易懂的方式向非專(zhuān)業(yè)人士解釋這些概念是相當(dāng)具有挑戰(zhàn)性的。
但這對(duì)于自己和他人,都很有價(jià)值。
正如愛(ài)因斯坦所言:“If you can’t explain it simply, you don’t understand it well enough(如果你不能簡(jiǎn)單地解釋?zhuān)蔷驼f(shuō)明你理解不夠)”。
今天,我嘗試把AI與人類(lèi)學(xué)習(xí)和成長(zhǎng)的類(lèi)比,通過(guò)將AI與人們熟悉的事物進(jìn)行比較的方式,簡(jiǎn)要介紹AI相關(guān)的原理、進(jìn)展和意義。
1、“咿呀學(xué)語(yǔ)、蹣跚學(xué)步” vs “涌現(xiàn)”
帶過(guò)小孩的家長(zhǎng)都會(huì)有這樣一個(gè)感覺(jué):突然有一天發(fā)現(xiàn)孩子會(huì)說(shuō)話(huà)了、會(huì)走路了。
這個(gè)過(guò)程并非像“0%、1%、2%…98%、99%、100%”這樣逐個(gè)百分點(diǎn)緩慢提升,而是有一天突然發(fā)生了變化。
模型的“涌現(xiàn)”指的是在大量訓(xùn)練數(shù)據(jù)和復(fù)雜模型結(jié)構(gòu)的支持下,模型突然表現(xiàn)出較高的性能和新的能力。
簡(jiǎn)單來(lái)說(shuō),就是“量變引起質(zhì)變”的過(guò)程。
當(dāng)訓(xùn)練樣本足夠大、算法迭代達(dá)到一定階段時(shí),模型的能力會(huì)突然提高。
能力“涌現(xiàn)”的前提,是大量不斷的輸入。
自孩子出生起,盡管他們聽(tīng)不懂、不會(huì)說(shuō),但家長(zhǎng)要不斷與孩子互動(dòng),跟他說(shuō)話(huà)。在日積月累的過(guò)程中,有一天孩子的說(shuō)話(huà)能力就會(huì)“涌現(xiàn)”出來(lái)。
模型的發(fā)展過(guò)程也類(lèi)似。一開(kāi)始可能什么都不會(huì),即使“能說(shuō)會(huì)道”,也可能表現(xiàn)出“智障”或者“一本正經(jīng)地胡說(shuō)八道”。
然而,在持續(xù)的大樣本訓(xùn)練和算法不斷迭代的過(guò)程中,有一天它就能達(dá)到像ChatGPT、GPT-4那樣讓人驚艷的理解能力、推理能力和表達(dá)能力。
2、“讀萬(wàn)卷書(shū)、行萬(wàn)里路、與萬(wàn)人談” vs“預(yù)訓(xùn)練(Pre-Train)、精調(diào)(Fine-Tuning)”
孩子們會(huì)說(shuō)話(huà)、會(huì)走路之后,人的學(xué)習(xí)才正式開(kāi)始。
一個(gè)人的學(xué)習(xí)成長(zhǎng),通常先經(jīng)過(guò)基礎(chǔ)教育、廣泛的學(xué)習(xí),再發(fā)展為專(zhuān)業(yè)的、深入某個(gè)領(lǐng)域的學(xué)習(xí)。
不僅要廣泛涉獵,大量學(xué)習(xí)書(shū)本知識(shí),還要進(jìn)行實(shí)踐和與人交流。
在這個(gè)過(guò)程中,應(yīng)用所學(xué)知識(shí),獲取反饋,對(duì)大腦中的知識(shí)進(jìn)行修正和提煉,即從“知識(shí)到智慧”,實(shí)現(xiàn)“知行合一”。
掌握了基本的知識(shí)和技能后,人們需要找到自己的專(zhuān)長(zhǎng)領(lǐng)域。
在學(xué)校里,碩士生、博士生和教授需要選擇一個(gè)細(xì)分領(lǐng)域進(jìn)行深入研究。
每個(gè)人,也都需要找到自己的行業(yè)和職業(yè)。
對(duì)于GPT這樣的大型模型,它們的發(fā)展也是通過(guò)類(lèi)似的過(guò)程。
首先進(jìn)行“大規(guī)模數(shù)據(jù)集”進(jìn)行“預(yù)訓(xùn)練”,然后利用有標(biāo)簽的樣本以及人類(lèi)反饋,通過(guò)增強(qiáng)學(xué)習(xí)(Reinforcement Learning by Human Feedback,RLHF)進(jìn)行微調(diào)和迭代。
模型的預(yù)訓(xùn)練,指的是在大量無(wú)標(biāo)簽數(shù)據(jù)上訓(xùn)練模型以學(xué)習(xí)基本知識(shí)。
這就像人在嬰兒階段以及從小學(xué)到高中階段進(jìn)行大量學(xué)習(xí)一樣。不局限于某個(gè)領(lǐng)域,而是需要廣泛且大量地輸入信息。
精調(diào)指的是在特定任務(wù)上,利用有標(biāo)簽數(shù)據(jù)對(duì)模型進(jìn)行微調(diào),以便更好地適應(yīng)特定任務(wù)。
這就像人在閱讀了大量書(shū)籍后,還需要進(jìn)行實(shí)踐,從實(shí)踐中獲得反饋并成長(zhǎng)。
許多偉人和名人,如毛澤東、列寧、馬斯克、查理·芒格等,都非常熱愛(ài)閱讀,并樂(lè)于與人交流,在實(shí)際工作中大量實(shí)踐。
只有這樣,才能獲得足夠多的知識(shí),才能塑造出過(guò)人的智慧。
3、“嬌生慣養(yǎng)” vs“過(guò)擬合”
我們時(shí)??吹揭恍╆P(guān)于“孩子因?yàn)殡u毛蒜皮之類(lèi)的瑣事而做出傻事”的新聞,這通常是“嬌生慣養(yǎng)”的結(jié)果,與模型中的“過(guò)擬合”現(xiàn)象有相似之處。
所謂機(jī)器學(xué)習(xí),就是讓機(jī)器從樣本中學(xué)習(xí),從而“擬合”出規(guī)律,進(jìn)而掌握技能。
在訓(xùn)練模型時(shí),如果樣本過(guò)于單一或特征選擇不當(dāng),就容易出現(xiàn)過(guò)擬合現(xiàn)象。
過(guò)擬合意味著模型將訓(xùn)練樣本中的特殊情況誤認(rèn)為是普遍情況。
如此一來(lái),在面對(duì)新的樣本時(shí),模型就無(wú)法做出正確的處理。
同樣,嬌生慣養(yǎng)(過(guò)擬合:over-fitting)導(dǎo)致的脆弱心智(模型)在面臨現(xiàn)實(shí)世界中的各種挫折時(shí),往往無(wú)法正確應(yīng)對(duì)(預(yù)測(cè)不準(zhǔn)確、泛化能力差),從而很容易導(dǎo)致不幸的結(jié)果。
因此,我們應(yīng)該讓孩子面對(duì)各種情況,并給予反饋,讓他們了解并適應(yīng)真實(shí)世界。
4、“職業(yè)教育/基礎(chǔ)教育” vs “大模型、小模型”
人的教育有兩種類(lèi)型,一種是從小就教他一門(mén)手藝。比如“做菜、開(kāi)車(chē)、做鐵匠、木匠”等等,這樣他就成為了一個(gè)專(zhuān)才。另外,就是先是漫長(zhǎng)的基礎(chǔ)教育,再是高等、專(zhuān)業(yè)教育。先打好基礎(chǔ),再選擇專(zhuān)業(yè)方向。模型跟人一樣,你給他輸入什么,他就有什么樣的輸出,他就有什么樣的知識(shí)技能。在大模型之前,大家熟知的貓狗識(shí)別、指紋識(shí)別、人臉識(shí)別等等模型,就是做特定的事情,類(lèi)似于職業(yè)教育。
這樣的模型可以稱(chēng)為“小模型”,一方面是模型的size小,另外一方面是模型的能力范圍比較窄。GPT這樣的模型之所以稱(chēng)為大模型,既是因?yàn)橛?xùn)練數(shù)據(jù)集規(guī)模大、訓(xùn)練出的模型size大,也指的是模型有廣泛的能力,好像是“上知天文、下知地理”。讀萬(wàn)卷書(shū),就是大模型,發(fā)展出通用智能。只讀菜譜、只練廚技,就是小模型,發(fā)展特定技能。
5、“腦容量、字典、書(shū)籍” vs “大模型”
我們可以從以下三個(gè)方面,來(lái)形象化地理解大模型。
首先,以腦容量作為比喻。模型的大小就像動(dòng)物的腦容量一樣,較大的腦容量通常意味著更高的智慧。擁有更多神經(jīng)元和神經(jīng)元間連接的大腦,才能夠儲(chǔ)存更多知識(shí)。
其次,以字典作為比喻。如果一個(gè)語(yǔ)言的字典僅包含十個(gè)字,那么這個(gè)語(yǔ)言能表達(dá)的意義將非常有限。然而,如果字典中有數(shù)萬(wàn)個(gè)字,那么它就能表達(dá)更豐富的信息。
最后,以書(shū)籍進(jìn)行類(lèi)比。為什么大模型更具威力?
以GPT-3為例,其模型有800GB,即8000億個(gè)字節(jié),粗略地估算相當(dāng)于4000億個(gè)字。假設(shè)一本書(shū)有20萬(wàn)字,那么這就相當(dāng)于200萬(wàn)本書(shū)。
可以說(shuō),這“濃縮”的200萬(wàn)本書(shū)基本上能夠涵蓋人類(lèi)幾乎所有的知識(shí),且不重復(fù)。
(需要認(rèn)識(shí)到的是,成千上萬(wàn)年來(lái),人類(lèi)知識(shí)的記錄和傳承基本上就是通過(guò)語(yǔ)言和書(shū)籍形式進(jìn)行的。)
因此可見(jiàn),足夠大的模型,就能涵蓋足夠多的知識(shí)。
大模型,就有大智慧。
6、“作文能力的訓(xùn)練” vs “語(yǔ)言大模型”
常規(guī)的語(yǔ)言模型能力相對(duì)有限,比如進(jìn)行分詞、詞性判斷等,最多完成翻譯等任務(wù)。
GPT作為“大語(yǔ)言模型(Large Language Model, LLM)”之所以如此強(qiáng)大,是因?yàn)橐婚_(kāi)始它并沒(méi)有特定的目的性,不是預(yù)設(shè)讓模型完成某一個(gè)任務(wù),而是給模型廣泛地輸入和訓(xùn)練。
在學(xué)生作文能力的培養(yǎng)上,有兩種方法。
一種是以提升作文能力為目標(biāo),讓孩子閱讀各種作文技巧的書(shū)籍、參加各種作文培訓(xùn)班。但這樣急于求成的方法,效果其實(shí)并不理想。
另一方面,有些家長(zhǎng)鼓勵(lì)孩子從小養(yǎng)成閱讀的習(xí)慣,博覽群書(shū)。
這樣一來(lái),孩子的閱讀能力、知識(shí)面、思維能力都會(huì)得到很大提升,作文能力自然隨之提高。
而且,由于閱讀速度、理解能力的增長(zhǎng),孩子在讀題、審題方面的速度和準(zhǔn)確率也會(huì)提高,從而提升其他學(xué)科如數(shù)學(xué)、物理、化學(xué)等的成績(jī)。
更為重要的是,閱讀不僅能提高成績(jī),還能塑造一個(gè)人的世界觀、氣質(zhì),并增強(qiáng)內(nèi)心的力量。
可以說(shuō),對(duì)一個(gè)人的一生都會(huì)產(chǎn)生深遠(yuǎn)影響。
因此,我們不應(yīng)急功近利,而應(yīng)培養(yǎng)“大模型”。有了大模型,各種能力自然而然就會(huì)呈現(xiàn)。
7、“思維能力、寫(xiě)作能力” vs “字符預(yù)測(cè)”
人們常說(shuō),人如其文。一個(gè)人的文字能夠體現(xiàn)出其思考能力、表達(dá)能力等綜合素質(zhì)。
模型也是如此,ChatGPT的能力體現(xiàn)在它的回答中,體現(xiàn)在一個(gè)個(gè)輸出的字中。
首先要說(shuō)明的是,ChatGPT在回答問(wèn)題時(shí),一個(gè)字一個(gè)字地慢慢往外蹦,并非因?yàn)榫W(wǎng)絡(luò)速度的問(wèn)題,而是因?yàn)槟P途褪且赃@種方式工作的:它根據(jù)當(dāng)前的情境,不斷地推理出下一個(gè)應(yīng)該輸出的字(將概率最高的字輸出出來(lái))。
因此,“準(zhǔn)確預(yù)測(cè)下一個(gè)要輸出的字符”是模型能力的關(guān)鍵。
為了讓你更好地理解這個(gè)概念的重要性,我來(lái)舉一個(gè)例子。
假設(shè)有一部推理小說(shuō),故事情節(jié)跌宕起伏、線(xiàn)索錯(cuò)綜復(fù)雜。
小說(shuō)的最后,有一句話(huà):“兇手是______。”
如果AI在讀到這里時(shí)能輸出正確的字符,那么就證明這個(gè)模型非常強(qiáng)大。
表面上是字符,實(shí)際上是智能。
8、“變形金剛”與“transformer”
GPT是“Generative Pre-trained Transformer”的縮寫(xiě),其中Transformer是一種深度學(xué)習(xí)架構(gòu),具體指的是一種基于自注意力(self-attention)機(jī)制的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
這個(gè)概念至關(guān)重要,但的確難以理解。
下面,嘗試解釋一下。
你可以“顧名思義”,用“變形金剛”這部電影來(lái)做類(lèi)比。
變形金剛就是把一輛汽車(chē)零件打散,然后再變成一個(gè)人。
這個(gè)過(guò)程就像Transformer中的“編碼、解碼”的過(guò)程。
將輸入序列(比如汽車(chē))解碼成不同的部分(各個(gè)零件),并記憶部件之間的連接關(guān)系(通過(guò)自注意機(jī)制,self-attention),然后再根據(jù)相關(guān)信息組裝成輸出序列(如人型機(jī)器人)。
在這個(gè)過(guò)程中,Transformer可以捕捉輸入序列中的長(zhǎng)距離依賴(lài)關(guān)系,從而實(shí)現(xiàn)更高效且準(zhǔn)確的序列處理。
9、“終身學(xué)習(xí)” vs “機(jī)器學(xué)習(xí)”人與人的最大差別就是學(xué)習(xí)能力
人要跟上社會(huì)發(fā)展,不僅要在學(xué)生時(shí)代好好學(xué)習(xí),更重要的是在日常的工作和生活中不斷學(xué)習(xí)、終身學(xué)習(xí)。機(jī)器之所以這么厲害、AI之所以這么強(qiáng)大,就是因?yàn)槿思以诓粩鄬W(xué)習(xí)啊。
更何況,機(jī)器的記憶力、學(xué)習(xí)速度,可是人的成百上千倍。
看看我們,一邊在擔(dān)憂(yōu)“自己會(huì)不會(huì)被AI代替”,一邊整天慵懶地握著手機(jī)在打游戲、刷視頻。
懶惰的人類(lèi),要努力了啊!
10、“人腦、道” vs “可解釋性”
科學(xué)技術(shù)發(fā)展到今天,人類(lèi)對(duì)自己的大腦有了一定的了解,但完全談不上深入、透徹。
同樣,對(duì)于利用深度神經(jīng)網(wǎng)絡(luò)技術(shù)打造出的AI模型,也存在“可解釋性”的問(wèn)題。
盡管模型很強(qiáng)大,能識(shí)別出貓狗、能對(duì)答如流、能寫(xiě)代碼、能畫(huà)畫(huà),但即使是模型的開(kāi)發(fā)者,也無(wú)法準(zhǔn)確地說(shuō)明,某個(gè)結(jié)果是如何具體產(chǎn)生的。
可以說(shuō),人類(lèi)用原理不明的大腦,開(kāi)發(fā)出原理不明的大模型。
老子說(shuō),道可道非常道。
對(duì)于AI來(lái)說(shuō),也是如此。
太簡(jiǎn)單的模型,的確不會(huì)有強(qiáng)大的能力。
專(zhuān)欄作家
朱百寧,微信公眾號(hào):八點(diǎn)三十五,人人都是產(chǎn)品經(jīng)理專(zhuān)欄作家。前百度品牌總監(jiān)、螞蟻產(chǎn)品總監(jiān),著有《自傳播》一書(shū),現(xiàn)在專(zhuān)注于人工智能以及產(chǎn)品設(shè)計(jì)等領(lǐng)域。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
人類(lèi)用原理不明的大腦,開(kāi)發(fā)出原理不明的大模型。
而人類(lèi)出現(xiàn)自我意識(shí)的三大標(biāo)志:生理自我、社會(huì)自我、心理自我
那么想看看有生之年能否瞧見(jiàn)【大模型】也出現(xiàn)自我意識(shí)的標(biāo)志 那個(gè)時(shí)候就更有趣了