Llama3發(fā)布,開源模型追上閉源模型的歷史時(shí)刻就在眼前了?

硅星人
0 評論 983 瀏覽 2 收藏 14 分鐘
🔗 产品经理的核心价值是能够准确发现和满足用户需求,把用户需求转化为产品功能,并协调资源推动落地,创造商业价值

Meta正式發(fā)布了新一代開源大語言模型Llama3,這一消息掀起了網(wǎng)友們的瘋狂討論。那么綜合來看,Llama 3的性能有著怎樣的表現(xiàn)?Llama 3的到來,又意味著什么?

今天AI圈又迎來一件大事:Meta正式發(fā)布他們迄今最強(qiáng)的新一代開源大語言模型Llama3。

首批發(fā)布的Llama3 8B和Llama3 70B包括預(yù)訓(xùn)練和指令微調(diào)版本,8K上下文,在兩個(gè)24K GPU定制集群上使用15萬億tokens數(shù)據(jù)訓(xùn)練而成,Meta稱它們分別是80億和700億參數(shù)上最好的模型。同時(shí)一個(gè)參數(shù)超過400B的「最大Llama3」也在訓(xùn)練中,社區(qū)認(rèn)為這個(gè)模型更恐怖,極有可能超過當(dāng)前的閉源王者GPT-4 Turbo。

Llama3在各種行業(yè)基準(zhǔn)測試中表現(xiàn)驚艷,廣泛支持各種場景。接下來幾個(gè)月,Meta將陸續(xù)引入新的功能,包括多語言對話、多模態(tài)、更長的上下文和更強(qiáng)整體核心性能,并將與社區(qū)分享研究論文。

扎克伯格和Meta首席AI科學(xué)家Yann LeCun分別在Instagram和X宣布了這一消息。

網(wǎng)友們在評論區(qū)一片沸騰,馬斯克前排回應(yīng),不錯(cuò)(有種淡淡的憂傷)。

我們趕快來看看Llama 3的具體性能表現(xiàn):

一、多項(xiàng)測試成績大幅超過Gemini 1.5和Claude Sonnet

Meta表示,新一代Llama3在Llama 2 的基礎(chǔ)上有了重大飛躍,確立了 LLM的新標(biāo)準(zhǔn)。在預(yù)訓(xùn)練和后訓(xùn)練過程上的改進(jìn)大大降低了錯(cuò)誤拒絕率,提高了一致性,并增加了模型響應(yīng)的多樣性。在推理、代碼生成和指令遵循等方面都得到了極大改善,使得 Llama 3 更加可控。

對照表中可見,Llama3 8B在大規(guī)模多任務(wù)語言理解、生成式預(yù)訓(xùn)練問題回答、編碼和數(shù)學(xué)等LLM核心基準(zhǔn)測試上都力挫Gemma 7B和Mistral 7B。Llama3 70B同樣戰(zhàn)勝 Gemini Pro 1.5和此前被夸爆了的Claude 3 Sonnet。

預(yù)訓(xùn)練版本的Llama3 8B和70B也在通用智能評估、困難任務(wù)、ARC挑戰(zhàn)賽、DROP數(shù)據(jù)集上把Mitral 7B、Gemma 7B、Gemini Pro 1.0、新出的Mixtral 8x22B 打入手下敗將之列。

除了關(guān)注LLM標(biāo)準(zhǔn)基準(zhǔn)測試項(xiàng)目, Meta還尋求模型在現(xiàn)實(shí)場景中的性能優(yōu)化。為此,他們開發(fā)了一套新的高質(zhì)量人工評估集。包含 1800 個(gè)提示,涵蓋了“尋求建議、頭腦風(fēng)暴、分類、封閉式問題回答、編碼、創(chuàng)意寫作、提取、模擬角色/人物、開放式問題回答、推理、重寫和總結(jié)” 這12 個(gè)關(guān)鍵用例。為了防止發(fā)生意外過擬合,即使是 Meta自己的建模團(tuán)隊(duì)也無法訪問它。

在這套評估集上, Llama3 70B與Claude Sonnet、Mistral Medium、GPT-3.5 和上一代Llama2對戰(zhàn)后勝率突出。(這里沒有把GPT-4和Claude 3 Opus拉來對比,推測后續(xù)的400B模型將接過重任。)

二、Llama 3有哪些技術(shù)創(chuàng)新

Meta稱,在Llama3的開發(fā)過程中秉承了創(chuàng)新、擴(kuò)展規(guī)模和優(yōu)化簡潔性的設(shè)計(jì)理念。重點(diǎn)關(guān)注四個(gè)關(guān)鍵要素:模型架構(gòu)、預(yù)訓(xùn)練數(shù)據(jù)、擴(kuò)大預(yù)訓(xùn)練規(guī)模以及指令微調(diào)。下面分項(xiàng)來看:

模型架構(gòu)

Llama 3 選擇了一個(gè)相對標(biāo)準(zhǔn)的純解碼器 Transformer 架構(gòu)。

相比 Llama 2 的改進(jìn)之處有:Llama 3 使用一個(gè)包含 128K tokens的分詞器,可以更有效地編碼語言,從而顯著提高模型性能;在 8B 和 70B 兩種規(guī)模上都采用了分組查詢注意力(GQA)機(jī)制來提高模型推理效率;同時(shí)在 8192 個(gè)tokens的序列上訓(xùn)練模型,使用掩碼確保自注意力不會跨越文檔邊界。

訓(xùn)練數(shù)據(jù)

Meta認(rèn)為訓(xùn)練出最佳LLM的關(guān)鍵是要整理一個(gè)大型高質(zhì)量訓(xùn)練數(shù)據(jù)集,為此他們投入了大量資源:

Llama 3 在超過 15 萬億個(gè)公開可用來源的token上進(jìn)行了預(yù)訓(xùn)練,比訓(xùn)練 Llama 2 時(shí)的數(shù)據(jù)集足足大 7 倍,代碼量是 Llama 2 的 4 倍。其中超過 5% 來自高質(zhì)量非英語數(shù)據(jù),總共涵蓋了 30 多種語言,以為即將到來的多語言使用場景做準(zhǔn)備。

Llama3團(tuán)隊(duì)開發(fā)了一系列數(shù)據(jù)過濾管道來保證數(shù)據(jù)質(zhì)量。他們還進(jìn)行了大量實(shí)驗(yàn),來評估在最終預(yù)訓(xùn)練數(shù)據(jù)集中混合不同來源數(shù)據(jù)的最佳方式,以此來選擇一個(gè)包括STEM、編碼、歷史知識等等數(shù)據(jù)類別的最優(yōu)數(shù)據(jù)組合,確保 Llama 3 在各種使用場景中表現(xiàn)良好。

擴(kuò)大預(yù)訓(xùn)練規(guī)模

為了更有效利用預(yù)訓(xùn)練數(shù)據(jù),Meta針對下游基準(zhǔn)評估開發(fā)了一系列詳細(xì)的擴(kuò)展法則,在實(shí)際訓(xùn)練模型之前就能預(yù)測最大模型在關(guān)鍵任務(wù)上的性能,來確保最終模型在各種使用場景和能力上都有出色的表現(xiàn)。

在 Llama 3 的開發(fā)過程中,團(tuán)隊(duì)也對擴(kuò)展行為有了一些新的觀察。例如,盡管一個(gè) 8B 參數(shù)模型對應(yīng)的最佳訓(xùn)練計(jì)算量是 200B個(gè) tokens,但他們的 8B 和 70B 參數(shù)模型在接受高達(dá) 15 萬億個(gè)token訓(xùn)練后,性能仍然呈對數(shù)線性提高。

Meta結(jié)合了三種并行化方式:數(shù)據(jù)并行、模型并行和管道并行,來訓(xùn)練最大的Llama3模型。最高效地實(shí)現(xiàn)在同時(shí)使用 16K 個(gè) GPU 訓(xùn)練時(shí),每個(gè) GPU 的計(jì)算利用率超過 400 TFLOPS。他們還開發(fā)了一個(gè)先進(jìn)的新訓(xùn)練堆棧,可以自動(dòng)進(jìn)行錯(cuò)誤檢測、處理和維護(hù),并進(jìn)行了一系列硬件和可擴(kuò)展存儲系統(tǒng)的改進(jìn)。最終使總體有效訓(xùn)練時(shí)間超過 95%,與 Llama 2 相比訓(xùn)練效率提升了約 3 倍。

指令微調(diào)方法創(chuàng)新

為了在聊天場景中充分釋放預(yù)訓(xùn)練模型的潛力,Meta也在指令微調(diào)方法上進(jìn)行了創(chuàng)新。后訓(xùn)練方法采用監(jiān)督微調(diào)(SFT)、拒絕采樣、鄰近策略優(yōu)化(PPO)和直接策略優(yōu)化(DPO)的組合。在模型質(zhì)量上的最大改進(jìn)來自于仔細(xì)整理的訓(xùn)練數(shù)據(jù),并對人工標(biāo)注人員提供的標(biāo)注進(jìn)行多輪質(zhì)量保證。

通過 PPO 和 DPO 從偏好排序中學(xué)習(xí),也大大提高了 Llama 3 在推理和編碼任務(wù)上的性能。團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)你問模型一個(gè)它難以回答的推理問題時(shí),模型會產(chǎn)生正確的推理軌跡:知道如何得出正確答案,但不知道如何選擇它。通過在偏好排序上進(jìn)行訓(xùn)練,模型就能學(xué)會如何去選擇正確答案。

哪里可以用到:

根據(jù)官方介紹,Llama 3 將很快在所有主要平臺上可用,包括云服務(wù)商、API 提供商等。從AWS、Google Cloud、Databricks、Snowflake 、NVIDIA NIM到Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure——Llama 3 將無處不在。它也得到了 AMD、AWS、Dell、Intel、NVIDIA 和 Qualcomm 提供的硬件平臺支持。

對于普通用戶來說,最方便直接感受Llama3的方式就是通過 Meta AI。

除了在WhatsApp、Messenger、Instagram、Facebook等應(yīng)用與Meta AI聊天助手對話外,今天還推出了網(wǎng)頁版https://www.meta.ai/。即開即用,可以輸入文本提問來生成圖片和簡單代碼,支持實(shí)時(shí)搜索,其它功能還不是很完善。如果想存儲歷史記錄則需登錄Facebook賬號。

三、真正的“GPT-4級”開源模型就在眼前

而Meta透露,Llama 3 8B 和 70B 只是 Llama 3 系列的開始,更多令人期待的東西即將到來。

一個(gè)超過 400B 參數(shù)的最大模型正在訓(xùn)練中,開發(fā)團(tuán)隊(duì)對此感到興奮。未來幾個(gè)月,Meta將發(fā)布多個(gè)新功能,包括多模態(tài)、多語言對話能力、更長的上下文窗口以及更強(qiáng)大的整體能力。一旦完成所有Llama 3 的訓(xùn)練,他們也會發(fā)表一篇詳細(xì)的研究論文供社區(qū)參考。

Llama3 8B和70B,加上一個(gè)證實(shí)了正在訓(xùn)練的400B大模型,無疑向開源社區(qū)注入一支超強(qiáng)興奮劑。

而不久后即將發(fā)布的Llama3 400B+會有多厲害?

大神卡帕西給予了很高評價(jià):“Llama 3 是 Meta 一個(gè)看起來非常強(qiáng)大的模型。堅(jiān)持基本原則,在可靠的系統(tǒng)和數(shù)據(jù)工作上花費(fèi)大量高質(zhì)量時(shí)間,探索長期訓(xùn)練模型的極限。我也對 400B 模型非常興奮,它可能是第一個(gè) GPT-4 級別的開源模型。我想很多人會要求更長的上下文長度?!?/p>

同時(shí)他也提出了個(gè)人請求,希望能有比 8B 更小參數(shù),理想規(guī)模在0.1B到1B左右的模型,用于教育工作、(單元)測試、嵌入式應(yīng)用等。

英偉達(dá)高級研究經(jīng)理Jim Fan認(rèn)為,它將標(biāo)志著社區(qū)獲得對「GPT-4級別模型」開放權(quán)重訪問的分水嶺時(shí)刻,這將改變許多研究工作和草根創(chuàng)業(yè)公司的計(jì)算方法。

從當(dāng)前預(yù)測數(shù)據(jù)來看,Llama3 400B+已經(jīng)足以匹敵市場上最強(qiáng)大的Claude 3 Opus和GPT-4。而Llama-3-400B仍在訓(xùn)練中,有望在接下來的幾個(gè)月中變得更好?!坝腥绱藦?qiáng)大的基礎(chǔ)設(shè)施,可以解鎖很多研究潛力。期待整個(gè)生態(tài)系統(tǒng)的建設(shè)者能量激增!”

一個(gè)讓所有人必須考慮的事實(shí)就是:開源模型追上閉源模型的歷史時(shí)刻可能就在眼前了。

這對開發(fā)者可能意味著,AI應(yīng)用可以更加快速的涌現(xiàn)和迭代出來。

而對創(chuàng)業(yè)公司們來說,則意味著更徹底的思路上的沖擊。

它直接影響到所有以閉源模型 API 為核心的商業(yè)模式——既然免費(fèi)的足夠好用,為什么還要花錢呢?

更重要的是,如果連OpenAI、Google和Anthropic神秘的工具箱都不再高不可攀,那做一個(gè)比不上開源最強(qiáng)水平的閉源模型的意義何在呢。

最后還是不得不問一句:GPT-5,你到底在哪里呢?

作者:張瀟雪

來源公眾號:硅星GenAI(ID:gh_e06235300f0d),比一部分人更先進(jìn)入GenAI。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @硅星人 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!