從GPT-1到GPT-4看ChatGPT的崛起

0 評(píng)論 5416 瀏覽 7 收藏 15 分鐘
🔗 技术知识、行业知识、业务知识等,都是B端产品经理需要了解和掌握的领域相关的知识,有助于进行产品方案设计和评估

近日發(fā)布的ChatGPT一夜之間成為話題中心,這個(gè)可以對(duì)話的智能交互模型,因?yàn)樗母叨戎悄芑艿饺藗冴P(guān)注。本文通過(guò)GPT-1到GPT-4的發(fā)展史,從專業(yè)角度分析了ChatGPT的技術(shù)發(fā)展方向及其目前的局限性,希望對(duì)你有所啟發(fā)。

一、ChatGPT是個(gè)啥?

從GPT-1到GPT-4看ChatGPT的崛起

近期,OpenAI 發(fā)布了 ChatGPT,是一個(gè)可以對(duì)話的方式進(jìn)行交互的模型,因?yàn)樗闹悄芑玫搅撕芏嘤脩舻臍g迎。

ChatGPT 也是OpenAI之前發(fā)布的 InstructGPT 的親戚,ChatGPT模型的訓(xùn)練是使用RLHF(Reinforcement learning with human feedback)也許ChatGPT的到來(lái),也是OpenAI 的GPT-4正式推出之前的序章。什么是GPT?從GPT-1到GPT-3。

Generative Pre-trained Transformer (GPT),是一種基于互聯(lián)網(wǎng)可用數(shù)據(jù)訓(xùn)練的文本生成深度學(xué)習(xí)模型。它用于問(wèn)答、文本摘要生成、機(jī)器翻譯、分類、代碼生成和對(duì)話 AI。

2018年,GPT-1誕生,這一年也是NLP(自然語(yǔ)言處理)的預(yù)訓(xùn)練模型元年。性能方面,GPT-1有著一定的泛化能力,能夠用于和監(jiān)督任務(wù)無(wú)關(guān)的NLP任務(wù)中。其常用任務(wù)包括:

  • 自然語(yǔ)言推理:判斷兩個(gè)句子的關(guān)系(包含、矛盾、中立)
  • 問(wèn)答與常識(shí)推理:輸入文章及若干答案,輸出答案的準(zhǔn)確率
  • 語(yǔ)義相似度識(shí)別:判斷兩個(gè)句子語(yǔ)義是否相關(guān)
  • 分類:判斷輸入文本是指定的哪個(gè)類別

雖然GPT-1在未經(jīng)調(diào)試的任務(wù)上有一些效果,但其泛化能力遠(yuǎn)低于經(jīng)過(guò)微調(diào)的有監(jiān)督任務(wù),因此GPT-1只能算得上一個(gè)還算不錯(cuò)的語(yǔ)言理解工具而非對(duì)話式AI。GPT-2也于2019年如期而至,不過(guò),GPT-2并沒(méi)有對(duì)原有的網(wǎng)絡(luò)進(jìn)行過(guò)多的結(jié)構(gòu)創(chuàng)新與設(shè)計(jì),只使用了更多的網(wǎng)絡(luò)參數(shù)與更大的數(shù)據(jù)集:最大模型共計(jì)48層,參數(shù)量達(dá)15億,學(xué)習(xí)目標(biāo)則使用無(wú)監(jiān)督預(yù)訓(xùn)練模型做有監(jiān)督任務(wù)。

在性能方面,除了理解能力外,GPT-2在生成方面第一次表現(xiàn)出了強(qiáng)大的天賦:閱讀摘要、聊天、續(xù)寫、編故事,甚至生成假新聞、釣魚郵件或在網(wǎng)上進(jìn)行角色扮演通通不在話下。在“變得更大”之后,GPT-2的確展現(xiàn)出了普適而強(qiáng)大的能力,并在多個(gè)特定的語(yǔ)言建模任務(wù)上實(shí)現(xiàn)了彼時(shí)的最佳性能。

之后,GPT-3出現(xiàn)了,作為一個(gè)無(wú)監(jiān)督模型(現(xiàn)在經(jīng)常被稱為自監(jiān)督模型),幾乎可以完成自然語(yǔ)言處理的絕大部分任務(wù),例如面向問(wèn)題的搜索、閱讀理解、語(yǔ)義推斷、機(jī)器翻譯、文章生成和自動(dòng)問(wèn)答等等。

而且,該模型在諸多任務(wù)上表現(xiàn)卓越,例如在法語(yǔ)-英語(yǔ)和德語(yǔ)-英語(yǔ)機(jī)器翻譯任務(wù)上達(dá)到當(dāng)前最佳水平,自動(dòng)產(chǎn)生的文章幾乎讓人無(wú)法辨別出自人還是機(jī)器(僅52%的正確率,與隨機(jī)猜測(cè)相當(dāng)),更令人驚訝的是在兩位數(shù)的加減運(yùn)算任務(wù)上達(dá)到幾乎100%的正確率,甚至還可以依據(jù)任務(wù)描述自動(dòng)生成代碼。

一個(gè)無(wú)監(jiān)督模型功能多效果好,似乎讓人們看到了通用人工智能的希望,可能這就是GPT-3影響如此之大的主要原因GPT-3模型到底是什么?實(shí)際上,GPT-3就是一個(gè)簡(jiǎn)單的統(tǒng)計(jì)語(yǔ)言模型。

從機(jī)器學(xué)習(xí)的角度,語(yǔ)言模型是對(duì)詞語(yǔ)序列的概率分布的建模,即利用已經(jīng)說(shuō)過(guò)的片段作為條件預(yù)測(cè)下一個(gè)時(shí)刻不同詞語(yǔ)出現(xiàn)的概率分布。語(yǔ)言模型一方面可以衡量一個(gè)句子符合語(yǔ)言文法的程度(例如衡量人機(jī)對(duì)話系統(tǒng)自動(dòng)產(chǎn)生的回復(fù)是否自然流暢),同時(shí)也可以用來(lái)預(yù)測(cè)生成新的句子。

例如,對(duì)于一個(gè)片段“中午12點(diǎn)了,我們一起去餐廳”,語(yǔ)言模型可以預(yù)測(cè)“餐廳”后面可能出現(xiàn)的詞語(yǔ)。一般的語(yǔ)言模型會(huì)預(yù)測(cè)下一個(gè)詞語(yǔ)是“吃飯”,強(qiáng)大的語(yǔ)言模型能夠捕捉時(shí)間信息并且預(yù)測(cè)產(chǎn)生符合語(yǔ)境的詞語(yǔ)“吃午飯”。

通常,一個(gè)語(yǔ)言模型是否強(qiáng)大主要取決于兩點(diǎn):首先看該模型是否能夠利用所有的歷史上下文信息,上述例子中如果無(wú)法捕捉“中午12點(diǎn)”這個(gè)遠(yuǎn)距離的語(yǔ)義信息,語(yǔ)言模型幾乎無(wú)法預(yù)測(cè)下一個(gè)詞語(yǔ)“吃午飯”。其次,還要看是否有足夠豐富的歷史上下文可供模型學(xué)習(xí),也就是說(shuō)訓(xùn)練語(yǔ)料是否足夠豐富

由于語(yǔ)言模型屬于自監(jiān)督學(xué)習(xí),優(yōu)化目標(biāo)是最大化所見(jiàn)文本的語(yǔ)言模型概率,因此任何文本無(wú)需標(biāo)注即可作為訓(xùn)練數(shù)據(jù)。由于GPT-3更強(qiáng)的性能和明顯更多的參數(shù),它包含了更多的主題文本,顯然優(yōu)于前代的GPT-2。

作為目前最大的密集型神經(jīng)網(wǎng)絡(luò),GPT-3能夠?qū)⒕W(wǎng)頁(yè)描述轉(zhuǎn)換為相應(yīng)代碼、模仿人類敘事、創(chuàng)作定制詩(shī)歌、生成游戲劇本,甚至模仿已故的各位哲學(xué)家——預(yù)測(cè)生命的真諦。且GPT-3不需要微調(diào),在處理語(yǔ)法難題方面,它只需要一些輸出類型的樣本(少量學(xué)習(xí))。

可以說(shuō)GPT-3似乎已經(jīng)滿足了我們對(duì)于語(yǔ)言專家的一切想象。

注:上文主要參考以下文章:

  1. GPT4發(fā)布在即堪比人腦,多位圈內(nèi)大佬坐不住了!-徐杰承、云昭 -公眾號(hào)51CTO技術(shù)棧- 2022-11-24 18:08
  2. 一文解答你對(duì)GPT-3的好奇!GPT-3是什么?為何說(shuō)它如此優(yōu)秀?-張家俊 中國(guó)科學(xué)院自動(dòng)化研究所 2020-11-11 17:25 發(fā)表于北京
  3. The Batch: 329 | InstructGPT,一種更友善、更溫和的語(yǔ)言模型-公眾號(hào)DeeplearningAI-2022-02-07 12:30

二、GPT-3存在什么問(wèn)題?

但是 GTP-3 并不完美。

當(dāng)前有人們最擔(dān)憂人工智能的主要問(wèn)題之一,就是聊天機(jī)器人和文本生成工具等很可能會(huì)不分青紅皂白和質(zhì)量好壞,地對(duì)網(wǎng)絡(luò)上的所有文本進(jìn)行學(xué)習(xí),進(jìn)而生產(chǎn)出錯(cuò)誤的、惡意冒犯的、甚至是攻擊性的語(yǔ)言輸出,這將會(huì)充分影響到它們的下一步應(yīng)用。

OpenAI也曾經(jīng)提出,會(huì)在不久的將來(lái)發(fā)布更為強(qiáng)大的GPT-4:

從GPT-1到GPT-4看ChatGPT的崛起

將GPT-3 與GPT-4、人腦進(jìn)行比較(圖片來(lái)源:Lex Fridman @youtube)

據(jù)說(shuō),GPT-4會(huì)在明年發(fā)布,它能夠通過(guò)圖靈測(cè)試,并且能夠先進(jìn)到和人類沒(méi)有區(qū)別,除此之外,企業(yè)引進(jìn)GPT-4的成本也將大規(guī)模下降。

從GPT-1到GPT-4看ChatGPT的崛起

三、ChatGP與InstructGPT

談到ChatGPT,就要聊聊它的“前身”InstructGPT。

2022年初,OpenAI發(fā)布了InstructGPT;在這項(xiàng)研究中,相比 GPT-3 而言,OpenAI 采用對(duì)齊研究(alignment research),訓(xùn)練出更真實(shí)、更無(wú)害,而且更好地遵循用戶意圖的語(yǔ)言模型 InstructGPT,InstructGPT是一個(gè)經(jīng)過(guò)微調(diào)的新版本GPT-3,可以將有害的、不真實(shí)的和有偏差的輸出最小化。

1. InstructGPT的工作原理是什么?

開(kāi)發(fā)人員通過(guò)結(jié)合監(jiān)督學(xué)習(xí)+從人類反饋中獲得的強(qiáng)化學(xué)習(xí),來(lái)提高GPT-3的輸出質(zhì)量。

在這種學(xué)習(xí)中,人類對(duì)模型的潛在輸出進(jìn)行排序;強(qiáng)化學(xué)習(xí)算法則對(duì)產(chǎn)生類似于高級(jí)輸出材料的模型進(jìn)行獎(jiǎng)勵(lì)。

訓(xùn)練數(shù)據(jù)集以創(chuàng)建提示開(kāi)始,其中一些提示是基于GPT-3用戶的輸入,比如“給我講一個(gè)關(guān)于青蛙的故事”或“用幾句話給一個(gè)6歲的孩子解釋一下登月”。

開(kāi)發(fā)人員將提示分為三個(gè)部分,并以不同的方式為每個(gè)部分創(chuàng)建響應(yīng):人類作家會(huì)對(duì)第一組提示做出響應(yīng)。開(kāi)發(fā)人員微調(diào)了一個(gè)經(jīng)過(guò)訓(xùn)練的GPT-3,將它變成InstructGPT以生成每個(gè)提示的現(xiàn)有響應(yīng)。

下一步是訓(xùn)練一個(gè)模型,使其對(duì)更好的響應(yīng)做出更高的獎(jiǎng)勵(lì)。對(duì)于第二組提示,經(jīng)過(guò)優(yōu)化的模型會(huì)生成多個(gè)響應(yīng)。人工評(píng)分者會(huì)對(duì)每個(gè)回復(fù)進(jìn)行排名。

在給出一個(gè)提示和兩個(gè)響應(yīng)后,一個(gè)獎(jiǎng)勵(lì)模型(另一個(gè)預(yù)先訓(xùn)練的GPT-3)學(xué)會(huì)了為評(píng)分高的響應(yīng)計(jì)算更高的獎(jiǎng)勵(lì),為評(píng)分低的回答計(jì)算更低的獎(jiǎng)勵(lì)。

開(kāi)發(fā)人員使用第三組提示和強(qiáng)化學(xué)習(xí)方法近端策略優(yōu)化(Proximal Policy Optimization, PPO)進(jìn)一步微調(diào)了語(yǔ)言模型。給出提示后,語(yǔ)言模型會(huì)生成響應(yīng),而獎(jiǎng)勵(lì)模型會(huì)給予相應(yīng)獎(jiǎng)勵(lì)。PPO使用獎(jiǎng)勵(lì)來(lái)更新語(yǔ)言模型。

本段參考:The Batch: 329 | InstructGPT,一種更友善、更溫和的語(yǔ)言模型-公眾號(hào)DeeplearningAI-2022-02-07 12:30

2. 重要在何處?

核心在于——人工智能需要是能夠負(fù)責(zé)任的人工智能。

OpenAI的語(yǔ)言模型可以助力教育領(lǐng)域、虛擬治療師、寫作輔助工具、角色扮演游戲等,在這些領(lǐng)域,社會(huì)偏見(jiàn)、錯(cuò)誤信息和毒害信息存在都是比較麻煩的,能夠避免這些缺陷的系統(tǒng)才能更具備有用性。

3. ChatGPT與InstructGPT的訓(xùn)練過(guò)程有哪些不同?

總體來(lái)說(shuō),ChatGPT和上文的InstructGPT一樣,是使用 RLHF(從人類反饋中強(qiáng)化學(xué)習(xí))訓(xùn)練的。不同之處在于數(shù)據(jù)是如何設(shè)置用于訓(xùn)練(以及收集)的。

【這里解釋一下:(來(lái)自李志飛老師)這里提到的訓(xùn)練數(shù)據(jù)的差別時(shí):“chatGPT就是在原來(lái)gpt3.5/instructGPT那個(gè)基礎(chǔ)上,加入了跟對(duì)話這個(gè)任務(wù)相關(guān)的有監(jiān)督數(shù)據(jù)(圖中第一步需要的)以及用戶給對(duì)話過(guò)程中答案的排序訓(xùn)練數(shù)據(jù)(第二和第三步強(qiáng)化學(xué)習(xí)需要的)】

從GPT-1到GPT-4看ChatGPT的崛起

四、ChatGPT存在哪些局限性?

  • 在訓(xùn)練的強(qiáng)化學(xué)習(xí) (RL) 階段,沒(méi)有真相和問(wèn)題標(biāo)準(zhǔn)答案的具體來(lái)源,來(lái)答復(fù)你的問(wèn)題。
  • 訓(xùn)練模型更加謹(jǐn)慎,可能會(huì)拒絕回答(以避免提示的誤報(bào))。
  • 監(jiān)督訓(xùn)練可能會(huì)誤導(dǎo)/偏向模型傾向于知道理想的答案,而不是模型生成一組隨機(jī)的響應(yīng)并且只有人類評(píng)論者選擇好的/排名靠前的響應(yīng)

注意:ChatGPT 對(duì)措辭敏感。有時(shí)模型最終對(duì)一個(gè)短語(yǔ)沒(méi)有反應(yīng),但對(duì)問(wèn)題/短語(yǔ)稍作調(diào)整,它最終會(huì)正確回答。

訓(xùn)練者更傾向于喜歡更長(zhǎng)的答案,因?yàn)檫@些答案可能看起來(lái)更全面,導(dǎo)致傾向于更為冗長(zhǎng)的回答,以及模型中會(huì)過(guò)度使用某些短語(yǔ),如果初始提示或問(wèn)題含糊不清,則模型不會(huì)適當(dāng)?shù)匾蟪吻濉?/p>

參考文獻(xiàn):

1.https://medium.com/inkwater-atlas/chatgpt-the-new-frontier-of-artificial-intelligence-9aee81287677

2.https://pub.towardsai.net/openai-debuts-chatgpt-50dd611278a4

3.https://openai.com/blog/chatgpt/

4.GPT4發(fā)布在即堪比人腦,多位圈內(nèi)大佬坐不住了!-徐杰承、云昭 -公眾號(hào)51CTO技術(shù)棧- 2022-11-24 18:08

5.一文解答你對(duì)GPT-3的好奇!GPT-3是什么?為何說(shuō)它如此優(yōu)秀?-張家俊 中國(guó)科學(xué)院自動(dòng)化研究所 2020-11-11 17:25 發(fā)表于北京

6.The Batch: 329 | InstructGPT,一種更友善、更溫和的語(yǔ)言模型-公眾號(hào)DeeplearningAI-2022-02-07 12:30

作者:阿法兔;微信公眾號(hào):阿法兔研究筆記(ID:AlphatuDiary)

來(lái)源:https://mp.weixin.qq.com/s/ALmmeyAzIZFNsRTXmVZ4aw

本文由 @阿法兔研究筆記 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!
专题
112431人已学习29篇文章
透过别人的项目总结,学习项目管理项目设计项目流程经验。
专题
11442人已学习12篇文章
本专题的文章分享了情人节的营销思路。
专题
16699人已学习13篇文章
本专题的文章分享了如何做产品运营。
专题
48800人已学习16篇文章
看看别人家的PM是怎么做产品测试的。
专题
39701人已学习11篇文章
你说你会SEO/SEM,我信!但是肯定做的不够好,不服看看别人的。
专题
31847人已学习21篇文章
产品经理每月必须做的事情,10个用户调查,关注100个用户博客,收集1000个用户的反馈。