Llama3發(fā)布,開(kāi)源模型追上閉源模型的歷史時(shí)刻就在眼前了?
Meta正式發(fā)布了新一代開(kāi)源大語(yǔ)言模型Llama3,這一消息掀起了網(wǎng)友們的瘋狂討論。那么綜合來(lái)看,Llama 3的性能有著怎樣的表現(xiàn)?Llama 3的到來(lái),又意味著什么?
今天AI圈又迎來(lái)一件大事:Meta正式發(fā)布他們迄今最強(qiáng)的新一代開(kāi)源大語(yǔ)言模型Llama3。
首批發(fā)布的Llama3 8B和Llama3 70B包括預(yù)訓(xùn)練和指令微調(diào)版本,8K上下文,在兩個(gè)24K GPU定制集群上使用15萬(wàn)億tokens數(shù)據(jù)訓(xùn)練而成,Meta稱它們分別是80億和700億參數(shù)上最好的模型。同時(shí)一個(gè)參數(shù)超過(guò)400B的「最大Llama3」也在訓(xùn)練中,社區(qū)認(rèn)為這個(gè)模型更恐怖,極有可能超過(guò)當(dāng)前的閉源王者GPT-4 Turbo。
Llama3在各種行業(yè)基準(zhǔn)測(cè)試中表現(xiàn)驚艷,廣泛支持各種場(chǎng)景。接下來(lái)幾個(gè)月,Meta將陸續(xù)引入新的功能,包括多語(yǔ)言對(duì)話、多模態(tài)、更長(zhǎng)的上下文和更強(qiáng)整體核心性能,并將與社區(qū)分享研究論文。
扎克伯格和Meta首席AI科學(xué)家Yann LeCun分別在Instagram和X宣布了這一消息。
網(wǎng)友們?cè)谠u(píng)論區(qū)一片沸騰,馬斯克前排回應(yīng),不錯(cuò)(有種淡淡的憂傷)。
我們趕快來(lái)看看Llama 3的具體性能表現(xiàn):
一、多項(xiàng)測(cè)試成績(jī)大幅超過(guò)Gemini 1.5和Claude Sonnet
Meta表示,新一代Llama3在Llama 2 的基礎(chǔ)上有了重大飛躍,確立了 LLM的新標(biāo)準(zhǔn)。在預(yù)訓(xùn)練和后訓(xùn)練過(guò)程上的改進(jìn)大大降低了錯(cuò)誤拒絕率,提高了一致性,并增加了模型響應(yīng)的多樣性。在推理、代碼生成和指令遵循等方面都得到了極大改善,使得 Llama 3 更加可控。
對(duì)照表中可見(jiàn),Llama3 8B在大規(guī)模多任務(wù)語(yǔ)言理解、生成式預(yù)訓(xùn)練問(wèn)題回答、編碼和數(shù)學(xué)等LLM核心基準(zhǔn)測(cè)試上都力挫Gemma 7B和Mistral 7B。Llama3 70B同樣戰(zhàn)勝 Gemini Pro 1.5和此前被夸爆了的Claude 3 Sonnet。
預(yù)訓(xùn)練版本的Llama3 8B和70B也在通用智能評(píng)估、困難任務(wù)、ARC挑戰(zhàn)賽、DROP數(shù)據(jù)集上把Mitral 7B、Gemma 7B、Gemini Pro 1.0、新出的Mixtral 8x22B 打入手下敗將之列。
除了關(guān)注LLM標(biāo)準(zhǔn)基準(zhǔn)測(cè)試項(xiàng)目, Meta還尋求模型在現(xiàn)實(shí)場(chǎng)景中的性能優(yōu)化。為此,他們開(kāi)發(fā)了一套新的高質(zhì)量人工評(píng)估集。包含 1800 個(gè)提示,涵蓋了“尋求建議、頭腦風(fēng)暴、分類、封閉式問(wèn)題回答、編碼、創(chuàng)意寫作、提取、模擬角色/人物、開(kāi)放式問(wèn)題回答、推理、重寫和總結(jié)” 這12 個(gè)關(guān)鍵用例。為了防止發(fā)生意外過(guò)擬合,即使是 Meta自己的建模團(tuán)隊(duì)也無(wú)法訪問(wèn)它。
在這套評(píng)估集上, Llama3 70B與Claude Sonnet、Mistral Medium、GPT-3.5 和上一代Llama2對(duì)戰(zhàn)后勝率突出。(這里沒(méi)有把GPT-4和Claude 3 Opus拉來(lái)對(duì)比,推測(cè)后續(xù)的400B模型將接過(guò)重任。)
二、Llama 3有哪些技術(shù)創(chuàng)新
Meta稱,在Llama3的開(kāi)發(fā)過(guò)程中秉承了創(chuàng)新、擴(kuò)展規(guī)模和優(yōu)化簡(jiǎn)潔性的設(shè)計(jì)理念。重點(diǎn)關(guān)注四個(gè)關(guān)鍵要素:模型架構(gòu)、預(yù)訓(xùn)練數(shù)據(jù)、擴(kuò)大預(yù)訓(xùn)練規(guī)模以及指令微調(diào)。下面分項(xiàng)來(lái)看:
模型架構(gòu)
Llama 3 選擇了一個(gè)相對(duì)標(biāo)準(zhǔn)的純解碼器 Transformer 架構(gòu)。
相比 Llama 2 的改進(jìn)之處有:Llama 3 使用一個(gè)包含 128K tokens的分詞器,可以更有效地編碼語(yǔ)言,從而顯著提高模型性能;在 8B 和 70B 兩種規(guī)模上都采用了分組查詢注意力(GQA)機(jī)制來(lái)提高模型推理效率;同時(shí)在 8192 個(gè)tokens的序列上訓(xùn)練模型,使用掩碼確保自注意力不會(huì)跨越文檔邊界。
訓(xùn)練數(shù)據(jù)
Meta認(rèn)為訓(xùn)練出最佳LLM的關(guān)鍵是要整理一個(gè)大型高質(zhì)量訓(xùn)練數(shù)據(jù)集,為此他們投入了大量資源:
Llama 3 在超過(guò) 15 萬(wàn)億個(gè)公開(kāi)可用來(lái)源的token上進(jìn)行了預(yù)訓(xùn)練,比訓(xùn)練 Llama 2 時(shí)的數(shù)據(jù)集足足大 7 倍,代碼量是 Llama 2 的 4 倍。其中超過(guò) 5% 來(lái)自高質(zhì)量非英語(yǔ)數(shù)據(jù),總共涵蓋了 30 多種語(yǔ)言,以為即將到來(lái)的多語(yǔ)言使用場(chǎng)景做準(zhǔn)備。
Llama3團(tuán)隊(duì)開(kāi)發(fā)了一系列數(shù)據(jù)過(guò)濾管道來(lái)保證數(shù)據(jù)質(zhì)量。他們還進(jìn)行了大量實(shí)驗(yàn),來(lái)評(píng)估在最終預(yù)訓(xùn)練數(shù)據(jù)集中混合不同來(lái)源數(shù)據(jù)的最佳方式,以此來(lái)選擇一個(gè)包括STEM、編碼、歷史知識(shí)等等數(shù)據(jù)類別的最優(yōu)數(shù)據(jù)組合,確保 Llama 3 在各種使用場(chǎng)景中表現(xiàn)良好。
擴(kuò)大預(yù)訓(xùn)練規(guī)模
為了更有效利用預(yù)訓(xùn)練數(shù)據(jù),Meta針對(duì)下游基準(zhǔn)評(píng)估開(kāi)發(fā)了一系列詳細(xì)的擴(kuò)展法則,在實(shí)際訓(xùn)練模型之前就能預(yù)測(cè)最大模型在關(guān)鍵任務(wù)上的性能,來(lái)確保最終模型在各種使用場(chǎng)景和能力上都有出色的表現(xiàn)。
在 Llama 3 的開(kāi)發(fā)過(guò)程中,團(tuán)隊(duì)也對(duì)擴(kuò)展行為有了一些新的觀察。例如,盡管一個(gè) 8B 參數(shù)模型對(duì)應(yīng)的最佳訓(xùn)練計(jì)算量是 200B個(gè) tokens,但他們的 8B 和 70B 參數(shù)模型在接受高達(dá) 15 萬(wàn)億個(gè)token訓(xùn)練后,性能仍然呈對(duì)數(shù)線性提高。
Meta結(jié)合了三種并行化方式:數(shù)據(jù)并行、模型并行和管道并行,來(lái)訓(xùn)練最大的Llama3模型。最高效地實(shí)現(xiàn)在同時(shí)使用 16K 個(gè) GPU 訓(xùn)練時(shí),每個(gè) GPU 的計(jì)算利用率超過(guò) 400 TFLOPS。他們還開(kāi)發(fā)了一個(gè)先進(jìn)的新訓(xùn)練堆棧,可以自動(dòng)進(jìn)行錯(cuò)誤檢測(cè)、處理和維護(hù),并進(jìn)行了一系列硬件和可擴(kuò)展存儲(chǔ)系統(tǒng)的改進(jìn)。最終使總體有效訓(xùn)練時(shí)間超過(guò) 95%,與 Llama 2 相比訓(xùn)練效率提升了約 3 倍。
指令微調(diào)方法創(chuàng)新
為了在聊天場(chǎng)景中充分釋放預(yù)訓(xùn)練模型的潛力,Meta也在指令微調(diào)方法上進(jìn)行了創(chuàng)新。后訓(xùn)練方法采用監(jiān)督微調(diào)(SFT)、拒絕采樣、鄰近策略優(yōu)化(PPO)和直接策略優(yōu)化(DPO)的組合。在模型質(zhì)量上的最大改進(jìn)來(lái)自于仔細(xì)整理的訓(xùn)練數(shù)據(jù),并對(duì)人工標(biāo)注人員提供的標(biāo)注進(jìn)行多輪質(zhì)量保證。
通過(guò) PPO 和 DPO 從偏好排序中學(xué)習(xí),也大大提高了 Llama 3 在推理和編碼任務(wù)上的性能。團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)你問(wèn)模型一個(gè)它難以回答的推理問(wèn)題時(shí),模型會(huì)產(chǎn)生正確的推理軌跡:知道如何得出正確答案,但不知道如何選擇它。通過(guò)在偏好排序上進(jìn)行訓(xùn)練,模型就能學(xué)會(huì)如何去選擇正確答案。
哪里可以用到:
根據(jù)官方介紹,Llama 3 將很快在所有主要平臺(tái)上可用,包括云服務(wù)商、API 提供商等。從AWS、Google Cloud、Databricks、Snowflake 、NVIDIA NIM到Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure——Llama 3 將無(wú)處不在。它也得到了 AMD、AWS、Dell、Intel、NVIDIA 和 Qualcomm 提供的硬件平臺(tái)支持。
對(duì)于普通用戶來(lái)說(shuō),最方便直接感受Llama3的方式就是通過(guò) Meta AI。
除了在WhatsApp、Messenger、Instagram、Facebook等應(yīng)用與Meta AI聊天助手對(duì)話外,今天還推出了網(wǎng)頁(yè)版https://www.meta.ai/。即開(kāi)即用,可以輸入文本提問(wèn)來(lái)生成圖片和簡(jiǎn)單代碼,支持實(shí)時(shí)搜索,其它功能還不是很完善。如果想存儲(chǔ)歷史記錄則需登錄Facebook賬號(hào)。
三、真正的“GPT-4級(jí)”開(kāi)源模型就在眼前
而Meta透露,Llama 3 8B 和 70B 只是 Llama 3 系列的開(kāi)始,更多令人期待的東西即將到來(lái)。
一個(gè)超過(guò) 400B 參數(shù)的最大模型正在訓(xùn)練中,開(kāi)發(fā)團(tuán)隊(duì)對(duì)此感到興奮。未來(lái)幾個(gè)月,Meta將發(fā)布多個(gè)新功能,包括多模態(tài)、多語(yǔ)言對(duì)話能力、更長(zhǎng)的上下文窗口以及更強(qiáng)大的整體能力。一旦完成所有Llama 3 的訓(xùn)練,他們也會(huì)發(fā)表一篇詳細(xì)的研究論文供社區(qū)參考。
Llama3 8B和70B,加上一個(gè)證實(shí)了正在訓(xùn)練的400B大模型,無(wú)疑向開(kāi)源社區(qū)注入一支超強(qiáng)興奮劑。
而不久后即將發(fā)布的Llama3 400B+會(huì)有多厲害?
大神卡帕西給予了很高評(píng)價(jià):“Llama 3 是 Meta 一個(gè)看起來(lái)非常強(qiáng)大的模型。堅(jiān)持基本原則,在可靠的系統(tǒng)和數(shù)據(jù)工作上花費(fèi)大量高質(zhì)量時(shí)間,探索長(zhǎng)期訓(xùn)練模型的極限。我也對(duì) 400B 模型非常興奮,它可能是第一個(gè) GPT-4 級(jí)別的開(kāi)源模型。我想很多人會(huì)要求更長(zhǎng)的上下文長(zhǎng)度。”
同時(shí)他也提出了個(gè)人請(qǐng)求,希望能有比 8B 更小參數(shù),理想規(guī)模在0.1B到1B左右的模型,用于教育工作、(單元)測(cè)試、嵌入式應(yīng)用等。
英偉達(dá)高級(jí)研究經(jīng)理Jim Fan認(rèn)為,它將標(biāo)志著社區(qū)獲得對(duì)「GPT-4級(jí)別模型」開(kāi)放權(quán)重訪問(wèn)的分水嶺時(shí)刻,這將改變?cè)S多研究工作和草根創(chuàng)業(yè)公司的計(jì)算方法。
從當(dāng)前預(yù)測(cè)數(shù)據(jù)來(lái)看,Llama3 400B+已經(jīng)足以匹敵市場(chǎng)上最強(qiáng)大的Claude 3 Opus和GPT-4。而Llama-3-400B仍在訓(xùn)練中,有望在接下來(lái)的幾個(gè)月中變得更好。“有如此強(qiáng)大的基礎(chǔ)設(shè)施,可以解鎖很多研究潛力。期待整個(gè)生態(tài)系統(tǒng)的建設(shè)者能量激增!”
一個(gè)讓所有人必須考慮的事實(shí)就是:開(kāi)源模型追上閉源模型的歷史時(shí)刻可能就在眼前了。
這對(duì)開(kāi)發(fā)者可能意味著,AI應(yīng)用可以更加快速的涌現(xiàn)和迭代出來(lái)。
而對(duì)創(chuàng)業(yè)公司們來(lái)說(shuō),則意味著更徹底的思路上的沖擊。
它直接影響到所有以閉源模型 API 為核心的商業(yè)模式——既然免費(fèi)的足夠好用,為什么還要花錢呢?
更重要的是,如果連OpenAI、Google和Anthropic神秘的工具箱都不再高不可攀,那做一個(gè)比不上開(kāi)源最強(qiáng)水平的閉源模型的意義何在呢。
最后還是不得不問(wèn)一句:GPT-5,你到底在哪里呢?
作者:張瀟雪
來(lái)源公眾號(hào):硅星GenAI(ID:gh_e06235300f0d),比一部分人更先進(jìn)入GenAI。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @硅星人 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!