全球首個(gè)「開(kāi)源GPT-4」出世!Llama 3震撼發(fā)布,Meta AI免登錄可用
蟄伏許久,Meta剛剛?cè)映隽酥匕跽◤棧捍蠹移诖丫玫腖lama 3,用了24000塊GPU訓(xùn)練,一亮相便登上開(kāi)源大模型鐵王座。8B和70B取得同規(guī)模參數(shù)下開(kāi)源領(lǐng)域的SOTA,推理編碼大幅提升,代碼和權(quán)重全開(kāi)源!而且,400B的Llama 3,也在路上了。
LLM界的「真·Open AI」,又來(lái)整頓AI圈了!
業(yè)內(nèi)驚呼:首個(gè)開(kāi)源GPT-4級(jí)的模型,終于來(lái)了!開(kāi)源模型追上閉源模型的歷史性一刻,或許就在眼前了?
一石激起千層浪,Llama 3才剛剛發(fā)布沒(méi)幾小時(shí),就破紀(jì)錄地登頂了Hugging Face排行榜。
這次,Meta共開(kāi)源了Llama 3 8B和Llama 3 70B兩款模型,分別有預(yù)訓(xùn)練和指令微調(diào)兩個(gè)版本。
小扎、LeCun也紛紛在第一時(shí)間開(kāi)啟了宣傳模式。
Llama 3是在由24000塊GPU組成的定制集群上,使用15萬(wàn)億個(gè)token訓(xùn)練的。
甚至就連最小8B版本,有時(shí)都能打敗大出一個(gè)數(shù)量級(jí)的Llama 2 70B!
值得期待的是,在未來(lái)幾個(gè)月,Llama 3還將推出更多版本
不過(guò),雖然上下文長(zhǎng)度相較之前實(shí)現(xiàn)了翻倍,但依然只有8K。
順帶提一句,Llama 3已經(jīng)可以在網(wǎng)頁(yè)版Meta AI用上了,還是免登錄那種。
對(duì)此,Hugging Face聯(lián)創(chuàng)兼CEO表示:「Llama 1和Llama 2現(xiàn)在已經(jīng)衍生出了30,000個(gè)新模型。我迫不及待地想看到Llama 3將會(huì)給AI生態(tài)帶來(lái)怎樣的沖擊了?!?/p>
一、400B性能野獸,刷新開(kāi)源SOTA
然而,8B和70B版本的Llama 3,還只是開(kāi)胃菜,更大的還在后面呢!
真正的性能野獸——Llama 3 400B不久便要解禁,目前還在訓(xùn)練中。
其中,預(yù)訓(xùn)練版本在推理挑戰(zhàn)測(cè)試集ARC-Challenge上,拿下了96的高分。
而指令微調(diào)版的Llama 3 400B更是在數(shù)學(xué)(GSM-8K)、代碼(Human-Eval)、大規(guī)模多任務(wù)語(yǔ)言理解基準(zhǔn)(MMLU)上,表現(xiàn)非常亮眼。
這些數(shù)據(jù)是什么概念?
英偉達(dá)高級(jí)科學(xué)家Jim Fan做了一個(gè)對(duì)比圖,與Claude 3 Opus、GPT-4-2024-04-09和Gemini在同基準(zhǔn)數(shù)據(jù)中的結(jié)果:
看得出,Llama 3 400B已經(jīng)在多語(yǔ)言推理任務(wù)、代碼能力,可與GPT-4、Claude 3相匹敵。
更亮眼的是,它在所有能力上,均打敗了Gemini Ultra 1.0。
還有一個(gè)更詳細(xì)的數(shù)據(jù)對(duì)比圖,自己體會(huì)。
一時(shí)間,全網(wǎng)陷入了瘋狂。
網(wǎng)友:首個(gè)「開(kāi)源GPT-4」來(lái)了
Karpathy精辟地總結(jié)道,400B模型將會(huì)是「首個(gè)開(kāi)源GPT-4級(jí)別的模型」。
Jim Fan感慨道:
即將推出的Llama 3 400B將成為一個(gè)分水嶺,即社區(qū)將獲得開(kāi)源重量級(jí)的GPT-4模型。它將改變?cè)S多研究工作和草根創(chuàng)業(yè)公司的計(jì)算方式。
Llama 3 400B還在訓(xùn)練中,希望在接下來(lái)的幾個(gè)月里會(huì)有更好的表現(xiàn)。有了如此強(qiáng)大的后盾,我們可以釋放出更多的研究潛能。期待整個(gè)生態(tài)系統(tǒng)的建設(shè)能量激增!
OpenAI研究科學(xué)家Will Depue也表達(dá)的同樣的看法,非常期待一款開(kāi)源GPT-4級(jí)別的模型——Llama 3 400B,未來(lái)的可能性無(wú)窮無(wú)盡!
昨天剛剛發(fā)布的Mixtral 8×22B刷新SOTA之后,沒(méi)想到,卻被Llama 3 70B碾壓了。
開(kāi)源模型的SOTA,當(dāng)屬于Llama 3 400B。
吳恩達(dá)的生日,卻收到一份別致的「禮物」。
Meta在博客中預(yù)告了,接下來(lái)幾個(gè)月,將發(fā)布多個(gè)新功能的模型,包括多語(yǔ)言對(duì)話、更長(zhǎng)上下文,以及整體能力提升。
一旦Llama 3完成訓(xùn)練,技術(shù)報(bào)告將直接發(fā)布。
二、Meta重回開(kāi)源模型「鐵王座」
在性能上,8B和70B顯著優(yōu)于Llama 2,取得了SOTA。
預(yù)訓(xùn)練模型和指令微調(diào)模型在8B和70B的參數(shù)規(guī)模上取得了如此先進(jìn)的性能,都是得益于預(yù)訓(xùn)練和訓(xùn)練后的優(yōu)化改進(jìn)。
而Meta的研究團(tuán)隊(duì),還對(duì)訓(xùn)練后優(yōu)化過(guò)程進(jìn)行了改進(jìn),這就大大降低了錯(cuò)誤拒絕執(zhí)行任務(wù)的比率,提高了模型輸出與人類(lèi)意圖的一致性,還讓模型響應(yīng)的多樣性也增加了。
同時(shí),模型的邏輯推理、代碼生成和指令遵循等能力也都大幅提升,讓Llama 3成為了一個(gè)可控性更強(qiáng)的模型。
與近乎同等規(guī)模預(yù)訓(xùn)練的開(kāi)源模型相比,Llama 3 8B完全打敗了Mistral,以及Gemma。不過(guò)推理能力,比Gemma-7B弱一些。
與閉源Gemini Pro 1.0,以及開(kāi)源Mixtral 8×22B相比,Llama 3-70B在多項(xiàng)基準(zhǔn)測(cè)試中拔得頭籌。
再來(lái)看看,Llama 3兩個(gè)參數(shù)版本與Llama 2-7B、13B、70B的預(yù)訓(xùn)練模型對(duì)比。
毋庸置疑,Llama 3 8B肯定是要超越Llama 2 7B,甚至碾壓了Llama 2 13B。
Llama 3 70B要比Llama 2 70B,尤其在推理(MMLU、ARC-Challenge)、AGIEval基準(zhǔn)上上,實(shí)現(xiàn)了巨大提升。
指令微調(diào)版本比較,Llama 3 8B同樣超越了開(kāi)源的Gemma 7B,以及Mistral 7B Instuct。
70B版本的Llama 3在推理(MMLU)、數(shù)學(xué)(GSM-8K)、甚至代碼(HumanEval)基準(zhǔn)上,比Gemini Pro 1.5和Claude 3 Sonnet更加亮眼。
再來(lái)看看與自家Llama 2指令微調(diào)不同參數(shù)版本的性能對(duì)比。
Llama 3 8B與70B都要比相對(duì)同等參數(shù)的Llama 2,得到了很大的提升。
而在Llama 3的開(kāi)發(fā)過(guò)程中,Meta不僅關(guān)注基準(zhǔn)測(cè)試,還致力于優(yōu)化模型在真實(shí)場(chǎng)景中的表現(xiàn)。
為此,Meta開(kāi)發(fā)了一個(gè)高質(zhì)量人工評(píng)估數(shù)據(jù)集,包含1,800個(gè)提示,這些提示了涵蓋了12個(gè)關(guān)鍵的應(yīng)用場(chǎng)景,包括詢(xún)問(wèn)建議、頭腦風(fēng)暴、分類(lèi)、選擇題、編碼、創(chuàng)意寫(xiě)作、信息提取、角色扮演、開(kāi)放性問(wèn)答、邏輯推理、改寫(xiě)和總結(jié)。
為了防止Llama 3在評(píng)估數(shù)據(jù)集上過(guò)擬合,建模團(tuán)隊(duì)自己也無(wú)法訪問(wèn)它。
人工評(píng)估結(jié)果顯示,Llama 3 70B的表現(xiàn)遠(yuǎn)勝于Llama 2、GPT-3.5、Mistral Medium和Claude Sonnet。
大模型發(fā)展到如今,再要往哪里創(chuàng)新?
在整個(gè)項(xiàng)目中,Meta重點(diǎn)關(guān)注了四個(gè)關(guān)鍵要素:模型架構(gòu)、訓(xùn)練數(shù)據(jù)、擴(kuò)大訓(xùn)練規(guī)模以及指令微調(diào)。
1. 128K token分詞器+GQA
在架構(gòu)上,Meta依然為L(zhǎng)lama 3選擇了Transformer架構(gòu)。
這個(gè)架構(gòu)是相對(duì)標(biāo)準(zhǔn)的純解碼器Transformer,不過(guò)相比于Llama 2做了幾個(gè)關(guān)鍵改進(jìn)。
比如,Llama 3使用了一個(gè)具有128K個(gè)token的分詞器,可以更有效地編碼語(yǔ)言,這就顯著提高了模型性能。
而為了提高Llama 3模型的推理速度,Meta在8B和70B兩種規(guī)模上都采用了分組查詢(xún)注意力(Grouped Query Attention,GQA)機(jī)制。
此外,Meta還在8,192個(gè)token的序列上訓(xùn)練模型,并通過(guò)掩碼確保自注意力機(jī)制不會(huì)跨越文檔邊界。
2. 15萬(wàn)億token訓(xùn)練,7倍于Llama 2
同時(shí),大型高質(zhì)量的訓(xùn)練數(shù)據(jù)集也至關(guān)重要。
為了預(yù)訓(xùn)練數(shù)據(jù),團(tuán)隊(duì)投入了大量資源。
最終,Llama 3在超過(guò)15萬(wàn)億個(gè)token上進(jìn)行了預(yù)訓(xùn)練,而這些token都是從公開(kāi)可用的來(lái)源收集的。
它的訓(xùn)練數(shù)據(jù)集比Llama 2的大7倍,并且包含4倍多的代碼。
為了應(yīng)對(duì)多語(yǔ)言場(chǎng)景,Llama 3的預(yù)訓(xùn)練數(shù)據(jù)集中有超過(guò)5%是高質(zhì)量的非英語(yǔ)數(shù)據(jù),涵蓋了30多種語(yǔ)言。
同時(shí),為了讓訓(xùn)練數(shù)據(jù)具有足夠高的質(zhì)量,Meta開(kāi)發(fā)了一系列數(shù)據(jù)過(guò)濾管道。
這些管道包括使用了啟發(fā)式過(guò)濾器、NSFW過(guò)濾器、語(yǔ)義去重方法和文本分類(lèi)器,用來(lái)預(yù)測(cè)數(shù)據(jù)質(zhì)量。
在這個(gè)過(guò)程中一個(gè)有意思的點(diǎn)就是——
前幾代的Llama 在識(shí)別高質(zhì)量數(shù)據(jù)方面居然出奇得好,因此,Meta使用Llama 2來(lái)生成了用于訓(xùn)練Llama 3的文本質(zhì)量分類(lèi)器的訓(xùn)練數(shù)據(jù)。
此外,為了評(píng)估在最終的預(yù)訓(xùn)練數(shù)據(jù)集中混合來(lái)自不同來(lái)源的數(shù)據(jù)的最佳方式,Meta還進(jìn)行了大量實(shí)驗(yàn)。
最終,Meta就能夠選擇一個(gè)數(shù)據(jù)組合,讓Llama 3在STEM、編碼、歷史知識(shí)等各種使用場(chǎng)景中,都能表現(xiàn)良好。
3. Scaling Law依舊是王道
為了有效利用預(yù)訓(xùn)練數(shù)據(jù),團(tuán)隊(duì)在擴(kuò)大預(yù)訓(xùn)練規(guī)模上,投入了大量精力。
針對(duì)下游基準(zhǔn)評(píng)估,Meta開(kāi)發(fā)了一系列詳細(xì)的縮放定律。這就保證團(tuán)隊(duì)能夠選擇最佳的數(shù)據(jù)組合,同時(shí)最佳地利用訓(xùn)練計(jì)算資源。
而縮放定律可以幫助團(tuán)隊(duì)在實(shí)際訓(xùn)練模型之前,預(yù)測(cè)最大模型在關(guān)鍵任務(wù)上的性能,這是至關(guān)重要的,因?yàn)檫@就能確保,模型在各種使用場(chǎng)景和能力方面,都有出色的表現(xiàn)。
在這個(gè)過(guò)程中,團(tuán)隊(duì)對(duì)縮放行為觀察到了有了幾個(gè)有趣的新現(xiàn)象。
比如,雖然一個(gè)8B參數(shù)模型的Chinchilla最優(yōu)訓(xùn)練計(jì)算量,對(duì)應(yīng)于約2000億個(gè)token,但Meta發(fā)現(xiàn),即使在模型接受了兩個(gè)數(shù)量級(jí)以上的數(shù)據(jù)訓(xùn)練后,模型性能仍在繼續(xù)提高!
而8B和70B參數(shù)的Llama 3在接受了高達(dá)15T個(gè)token的訓(xùn)練后,繼續(xù)呈對(duì)數(shù)線性提高。
更大的模型可以用更少的訓(xùn)練計(jì)算,來(lái)匹配這些較小模型的性能,不過(guò),由于小模型在推理過(guò)程中的效率更高,因此反而更受青睞。
為了訓(xùn)練最大的Llama 3模型,團(tuán)隊(duì)結(jié)合了三種并行化方式:數(shù)據(jù)并行、模型并行和流水線并行。
由此,團(tuán)隊(duì)達(dá)到了最高效的實(shí)現(xiàn):在同時(shí)使用16K個(gè)GPU訓(xùn)練時(shí),每個(gè)GPU的計(jì)算利用率超過(guò)了400 TFLOPS。
團(tuán)隊(duì)在兩個(gè)定制的24K GPU集群上進(jìn)行了訓(xùn)練。為了最大限度地提高GPU正常運(yùn)行時(shí)間,Meta還開(kāi)發(fā)了一個(gè)先進(jìn)的新訓(xùn)練技術(shù)棧,可以自動(dòng)進(jìn)行錯(cuò)誤檢測(cè)、處理和維護(hù)。
同時(shí),Meta還大大提高了硬件可靠性和靜默數(shù)據(jù)損壞的檢測(cè)機(jī)制,開(kāi)發(fā)了新的可擴(kuò)展存儲(chǔ)系統(tǒng),減少了檢查點(diǎn)和回滾的開(kāi)銷(xiāo)。
而這些改進(jìn),讓總體的有效訓(xùn)練時(shí)間超過(guò)了95%。
和與Llama 2相比,這些改進(jìn)直接讓Llama 3的訓(xùn)練效率提高了大概三倍!
4. 創(chuàng)新指令微調(diào)
同時(shí),團(tuán)隊(duì)也對(duì)指令微調(diào)進(jìn)行了創(chuàng)新。
Meta采用的后訓(xùn)練方法,是監(jiān)督微調(diào)(SFT)、拒絕采樣、近端策略?xún)?yōu)化(PPO)和直接策略?xún)?yōu)化(DPO)的組合。
Meta發(fā)現(xiàn),在SFT中使用的提示和在PPO與DPO中使用的偏好排序,對(duì)對(duì)齊模型的性能的影響完全超出了預(yù)期。
Llama 3在性能上取得的最大改進(jìn),就是歸功于對(duì)這些數(shù)據(jù)的仔細(xì)策劃,并且對(duì)人類(lèi)標(biāo)注者提供的標(biāo)準(zhǔn)進(jìn)行了多輪質(zhì)量保證。
而通過(guò)PPO和DPO從偏好排序中學(xué)習(xí),Llama 3在推理和編碼任務(wù)上的性能也大大提高了。
如果問(wèn)Llama 3一個(gè)很難回答的推理問(wèn)題,它有時(shí)竟然能產(chǎn)生正確的推理過(guò)程。
這個(gè)過(guò)程中的難點(diǎn)在于,它知道如何得出正確答案,但不知道該如何選擇。但通過(guò)在偏好排序上進(jìn)行訓(xùn)練,就能讓模型學(xué)會(huì)如何選擇正確答案。
5. 更安全
在部署上,團(tuán)隊(duì)采用了一種新的系統(tǒng)級(jí)方法。
Meta將Llama模型設(shè)想為一個(gè)更廣泛系統(tǒng)的一部分,讓開(kāi)發(fā)者坐在駕駛座上。Llama模型將作為系統(tǒng)的基礎(chǔ)部分,開(kāi)發(fā)者在設(shè)計(jì)時(shí)會(huì)考慮最終的目標(biāo)。
在模型安全上,指令微調(diào)起了重要作用。
通過(guò)內(nèi)部和外部努力,團(tuán)隊(duì)對(duì)指令微調(diào)模型進(jìn)行了安全測(cè)試。
紅隊(duì)方法會(huì)利用人類(lèi)專(zhuān)家和自動(dòng)化方法來(lái)生成對(duì)抗性提示,試圖引發(fā)有問(wèn)題的響應(yīng),比如化學(xué)、生物、網(wǎng)絡(luò)安全、其他風(fēng)險(xiǎn)領(lǐng)域相關(guān)的濫用風(fēng)險(xiǎn)。
在這個(gè)過(guò)程中,團(tuán)隊(duì)讓Llama Guard模型,成為安全的基礎(chǔ),并且可以根據(jù)應(yīng)用需求進(jìn)行微調(diào)。
新的Llama Guard 2使用MLCommons 分類(lèi)法。此外,CyberSecEval 2在其前作的基礎(chǔ)上進(jìn)行了擴(kuò)展,增加了評(píng)估LLM濫用代碼解釋器的傾向、攻擊性網(wǎng)絡(luò)安全能力和對(duì)提示注入攻擊的敏感性的措施。
最后,引入的Code Shield也增加了對(duì)生成的LLM不安全代碼的推理時(shí)過(guò)濾的支持。這樣就能降低不安全的代碼建議、代碼解釋器的濫用等。
另外,Meta還更新了負(fù)責(zé)任使用指南(RUG),建議根據(jù)適合應(yīng)用的內(nèi)容指南,檢查和過(guò)濾所有輸入和輸出。
此外,云服務(wù)提供商也會(huì)提供內(nèi)容審核API等工具,鼓勵(lì)開(kāi)發(fā)者進(jìn)行負(fù)責(zé)任地部署。
三、網(wǎng)頁(yè)版Meta AI免登錄,即可聊
與此同時(shí),今天Meta還放出了網(wǎng)頁(yè)版Meta AI,由最新Llama 3加持,號(hào)稱(chēng)是全球頂尖的AI助手之一。
整個(gè)頁(yè)面UI設(shè)計(jì)非常簡(jiǎn)潔,不僅可以對(duì)話,還支持生圖功能。
與ChatGPT-3.5免注冊(cè)登錄類(lèi)似,與Meta AI聊天功能,進(jìn)入網(wǎng)頁(yè)隨時(shí)隨地即可開(kāi)啟,無(wú)需登錄。
傳送門(mén):https://www.meta.ai/
不過(guò),作圖的話,是個(gè)例外。
其實(shí),Meta AI助手在去年的Connect大會(huì)上,小扎首次做了預(yù)告。
而現(xiàn)在,全世界更多的人可以通過(guò)前所未有的方式與之互動(dòng)。
不僅僅在網(wǎng)頁(yè)上能聊,Meta AI還集成到了自家旗下社交應(yīng)用中,比如Facebook、Ins、WhatsApp和Messenger。
接下來(lái),一起感受下,Meta AI助手帶來(lái)的與眾不同的魅力吧。
想要組織周末短途旅行,卻來(lái)不及做出行計(jì)劃?不用擔(dān)心!
Meta AI首先會(huì)根據(jù)要求提出三個(gè)關(guān)于旅行問(wèn)題,再去量身定制一份旅行清單!
– 目的地:您要去哪里?
– 持續(xù)時(shí)間:您將旅行多少天?
– 旅行類(lèi)型:是海灘度假、城市探險(xiǎn)、戶(hù)外探險(xiǎn)還是其他?
又或是你在數(shù)學(xué)問(wèn)題上苦苦掙扎?需要讓工作郵件顯得更專(zhuān)業(yè)?Meta AI都可以提供幫助!
甚至,你可以登錄以保存自己與Meta AI的對(duì)話,以供將來(lái)參考。
讓Llama 3畫(huà)一幅自畫(huà)像。
Ins、Facebook等APP無(wú)縫集成
正如前面所說(shuō),Meta AI也可以在Facebook、Ins、WhatsApp和Messenger的搜索中使用。
這樣的優(yōu)勢(shì)在于,可以隨時(shí)訪問(wèn)來(lái)自網(wǎng)絡(luò)的實(shí)時(shí)信息,無(wú)需在不同應(yīng)用程序之間切換。
舉個(gè)栗子,假設(shè)你正在Messenger群聊中計(jì)劃一次滑雪之旅。
直接通過(guò)Messenger的搜索,可以讓Meta AI查找從紐約到科羅拉多的航班,并找出時(shí)間段人最少的周末去旅行——所有這些都無(wú)需跳出Messenger即可完成。
當(dāng)你正在刷Facebook,看到一個(gè)感興趣的帖子,附有一張冰島北極光圖。
你可以直接問(wèn)Meta AI,「一年中什么時(shí)候最適合觀賞極光」?
除了在網(wǎng)頁(yè)版,Meta AI的圖像功能還可以在WhatsApp中體驗(yàn)。
當(dāng)你在搜索框開(kāi)始輸入prompt,便會(huì)看到一個(gè)浮現(xiàn)的圖像,會(huì)隨著你輸入的每幾個(gè)字而變化。
可以清晰看到,Meta AI如何將你的想象變?yōu)楝F(xiàn)實(shí)。
據(jù)介紹,Meta AI生成的圖像更加清晰、質(zhì)量更好,而且在圖像中融入文字的能力也得到了提升。
不論是專(zhuān)輯封面設(shè)計(jì)、婚禮指示牌、生日裝飾,還是服裝搭配靈感,Meta AI都可以生成相應(yīng)的圖像,以前所未有的速度和質(zhì)量將你的想象變?yōu)楝F(xiàn)實(shí)。
它甚至?xí)峁┯杏玫奶崾竞徒ㄗh,提供改進(jìn)圖像的思路,讓你可以在初始點(diǎn)的基礎(chǔ)上不斷迭代。
這還不是全部……
當(dāng)你找到一張自己喜歡的圖片,可以讓Meta AI制作動(dòng)畫(huà),以新的風(fēng)格對(duì)其進(jìn)行改進(jìn),甚至將其轉(zhuǎn)化為GIF,與朋友分享。
可以看出,有了強(qiáng)大的Llama 3加持,Meta AI的表現(xiàn)比以往更要出色。
不久后,Meta AI即將在Quest頭顯中推出。
參考資料:
https://about.fb.com/news/2024/04/meta-ai-assistant-built-with-llama-3/
https://ai.meta.com/blog/meta-llama-3/
https://llama.meta.com/llama3/
編輯:編輯部
來(lái)源公眾號(hào):新智元(ID:AI_era),“智能+”中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從“互聯(lián)網(wǎng)+”邁向“智能+”。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @新智元 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!