Llama 4出來,Meta 馬斯克遇到了大麻煩。
Meta最近推出了其最新的AI模型系列Llama 4,聲稱在多模態(tài)功能和性能上取得了顯著進(jìn)步。然而,這一發(fā)布卻引發(fā)了廣泛的爭(zhēng)議和批評(píng)。
Meta 最近推出了其最新的 AI 模型系列 Llama 4,據(jù)稱引入了多模態(tài)功能的進(jìn)步和…
Meta 最近推出了其最新的 AI 模型系列Llama 4,據(jù)稱引入了多模態(tài)功能和性能的進(jìn)步。然而,結(jié)果不僅令人失望,而且完全是陰暗的。
Meta 現(xiàn)在處于非常麻煩的水域(AI 對(duì)其存在至關(guān)重要)。這在各個(gè)層面都有影響,第一次,哪個(gè)國家在開源 AI 方面處于領(lǐng)先地位(我認(rèn)為,基于此,在一般的 AI 方面)。
Meta 令人失望的發(fā)布不僅對(duì) Meta 的抱負(fù)來說是可怕的;這是一個(gè)國家安全威脅。
在一個(gè)充斥著使用難以理解的行話的虛假專家的世界里,第一性原理分析和人工智能通常不會(huì)放在一起。
Meta 花了異常長的時(shí)間(將近一年)才發(fā)布其 Llama 模型的新版本,該模型系列曾被認(rèn)為是開源 AI 的前沿。
但根據(jù) Llama 4 的結(jié)果,情況已不再如此。事實(shí)證明,他們永遠(yuǎn)不會(huì)交付一個(gè)好的模型,所以他們決定,嗯,做一個(gè)完全糟糕的交付,以至于:
Meta 作為前沿實(shí)驗(yàn)室的日子現(xiàn)在已經(jīng)一去不復(fù)返了。
該版本模型包括兩個(gè)模型,第三個(gè)模型仍在開發(fā)中:
- Llama 4 Scout:該模型具有 170 億個(gè)活動(dòng)參數(shù),使用 16 位專家,總計(jì) 1090 億個(gè)參數(shù)。據(jù)稱,它擁有 1000 萬個(gè)令牌的上下文窗口,旨在在單個(gè) NVIDIA H100 GPU 上高效運(yùn)行。這意味著,至少從理論上講,您可以在一個(gè)提示中向模型發(fā)送近 800 萬個(gè)單詞。
- Llama 4 Maverick:該模型也有 170 億個(gè)活動(dòng)參數(shù),但雇傭了 128 名專家,累計(jì)參數(shù)總數(shù)達(dá)到 4000 億個(gè)。它經(jīng)過精心設(shè)計(jì),在各種 AI 基準(zhǔn)測(cè)試中優(yōu)于 GPT-4o 和 Gemini 2.0 Flash 等模型,并且可以在單個(gè) NVIDIA H100 DGX 服務(wù)器 (8xH100s) 上運(yùn)行。
- Llama 4 Behemoth:目前仍在訓(xùn)練中,Behemoth 預(yù)計(jì)擁有 2880 億個(gè)活動(dòng)參數(shù),總共大約2 萬億個(gè)參數(shù)。它的目標(biāo)是在 STEM 基準(zhǔn)測(cè)試中超越 GPT-4.5 和 Claude Sonnet 3.7 等模型,并被認(rèn)為是教師模型(不是用來服務(wù)的,而是用來訓(xùn)練較小的模型)。
起初,根據(jù)最初公布的結(jié)果,您會(huì)認(rèn)為這是今年最好的版本之一,因?yàn)椋?/p>
- Maverick 在 LMArena 上取得出色的成績,LMArena 是世界上主要的“氛圍評(píng)估”,由數(shù)千名不同的用戶評(píng)判。
- 兩個(gè)已發(fā)布的模型在幾個(gè)流行的基準(zhǔn)測(cè)試中都取得了很好的結(jié)果,例如 GPQA Diamond(測(cè)試博士水平知識(shí))。
- 它在一些編碼基準(zhǔn)測(cè)試中顯示出非常強(qiáng)大的結(jié)果。
但是當(dāng)真人開始玩這些模型時(shí),事情變得奇怪和尷尬,這些都是非常令人失望和有爭(zhēng)議的委婉說法。
自發(fā)布以來,Meta 一直面臨指控通過向 LMArena 基準(zhǔn)測(cè)試平臺(tái)提交明確針對(duì)對(duì)話性能優(yōu)化的Llama 4 Maverick 的實(shí)驗(yàn)版本來縱 AI 基準(zhǔn)測(cè)試排名。
不過,關(guān)鍵是他們沒有透露這個(gè)實(shí)驗(yàn)版本的存在,掩蓋了它不是主要版本,而是一個(gè)旨在最大化基準(zhǔn)測(cè)試結(jié)果的微調(diào)版本的事實(shí)。大多數(shù)模型都沒有“基準(zhǔn)測(cè)試調(diào)整”,這為 Meta 的模型提供了明顯的優(yōu)勢(shì)。
通俗地說,他們發(fā)布了一個(gè)針對(duì)該基準(zhǔn)測(cè)試優(yōu)化的模型,但沒有披露這一點(diǎn)以獲得超大的結(jié)果,并使其看起來像 Llama 4 Maverick 是一個(gè)瘋狂的好模型。
但指控遠(yuǎn)不止于此,有些人指責(zé) Meta 在測(cè)試集上進(jìn)行訓(xùn)練。這是你在 AI 中能得到的最接近重叛罪的。
但是為什么?
在訓(xùn)練模型時(shí),您可以將可用數(shù)據(jù)隨機(jī)分為訓(xùn)練集和測(cè)試集。這樣,您可以使用測(cè)試集來檢查模型在訓(xùn)練集上訓(xùn)練期間是否學(xué)習(xí)了有意義的模式。
- 如果你的模型在訓(xùn)練數(shù)據(jù)中表現(xiàn)良好,但在測(cè)試數(shù)據(jù)中表現(xiàn)不佳,則它已經(jīng)過度擬合到訓(xùn)練數(shù)據(jù),也就是記住了它。這使得它在現(xiàn)實(shí)世界中毫無用處,因?yàn)樗荒茉谂c用于訓(xùn)練的數(shù)據(jù)相同的數(shù)據(jù)中正常工作,而這種情況很少發(fā)生。
- 相反,如果您的模型很好地“泛化”到測(cè)試數(shù)據(jù)中,則意味著該模型已經(jīng)從訓(xùn)練數(shù)據(jù)中壓縮了所需的知識(shí),這些知識(shí)可以應(yīng)用于新的(分布內(nèi))數(shù)據(jù),使其可用。
但為什么這在 AI 中如此重要呢?讓我們看一個(gè)例子。假設(shè)您訓(xùn)練一個(gè)模型來識(shí)別貓,并希望測(cè)試它是否真的檢測(cè)到圖像中的貓。
您為模型提供了一個(gè)訓(xùn)練集,其中只有黑色和棕,而沒有橙,它們只出現(xiàn)在測(cè)試集中。如果您的模型了解貓是什么,它將了解到顏色并不能定義它是否是貓,并且應(yīng)該“泛化”并將橙識(shí)別為貓,即使它從未見過貓。這就是我們所說的 “泛化”。
這實(shí)際上是一個(gè)非常糟糕的訓(xùn)練數(shù)據(jù)分布,對(duì)模型完全不公平,因?yàn)槟銘?yīng)該在其中包含 orange cats。此外,這并不是訓(xùn)練和測(cè)試數(shù)據(jù)之間的純粹隨機(jī)分離,因?yàn)槲覀冎鲃?dòng)向模型隱藏了橙貓,這也是不好的做法,這只是為了證明我的觀點(diǎn)。
因此,通過進(jìn)行這種分離,您可以測(cè)試模型是簡(jiǎn)單地記住訓(xùn)練集(貓只能是黑色或棕色,因?yàn)樗吹降闹皇呛谏蜃厣?,還是真正理解了可推廣的模式(例如,所有貓都有四條腿、狹縫形的眼睛和一條尾巴)。因此,我們?cè)谟?xùn)練期間對(duì)模型隱藏了測(cè)試集,只在推理期間使用它來測(cè)試性能。
相反,Meta 被指責(zé)在測(cè)試集上訓(xùn)練模型,這些測(cè)試集精確測(cè)試它是否真正泛化。
換句話說,用我們的類比來說,當(dāng)測(cè)試集想看看 Meta 的模型理解貓也可以是橙色的時(shí),Meta 正在秘密地對(duì)橙進(jìn)行訓(xùn)練以確保它確實(shí)如此,但這并不能證明模型真的理解貓。
如果屬實(shí),這實(shí)際上是作弊,絕對(duì)是褻瀆數(shù)據(jù),對(duì)于一個(gè)被認(rèn)為是——或者我應(yīng)該說曾經(jīng)是——前 5 名 AI 實(shí)驗(yàn)室的實(shí)驗(yàn)室來說,這是絕對(duì)不能接受的。
該版本的亮點(diǎn)之一是這些模型在長上下文窗口下表現(xiàn)出色,據(jù)稱 Llama 4 Scout 訓(xùn)練了 1000 萬個(gè)token。通俗地說,您可以發(fā)送最多 800 萬個(gè)單詞的模型提示(作為參考,這幾乎是整個(gè)哈利波特傳奇)。
然而,當(dāng)人們?cè)谔幚?100k 個(gè)tokens的提示時(shí)測(cè)試模型的準(zhǔn)確性時(shí),這些提示比聲稱的限制小了 100 倍,性能下降到 15%。
由于上下文窗口的時(shí)間越長,模型性能就越下降,因此聲稱模型可以處理一百倍大的提示的說法是可笑的,老實(shí)說,這是 Meta 的另一個(gè)赤裸裸的謊言,因?yàn)槟P偷男阅芨绲乇罎⒘恕?/p>
總而言之,在當(dāng)前階段,很難高估這些結(jié)果的可怕程度。由于所有其他競(jìng)爭(zhēng)的 AI Labs 的內(nèi)部模型與 Gemini 2.5 Pro 一樣好或更好,很明顯 Meta 遠(yuǎn)遠(yuǎn)落后于曲線。
由于 Llama 4 是 Meta 對(duì)這種架構(gòu)的第一次嘗試,很明顯,該架構(gòu)幾乎是 DeepSeek v3 的復(fù)制品,更糟糕的是,它是最近的努力。這表明,當(dāng) DeepSeek 在幾個(gè)月前發(fā)布 v3 時(shí), 它讓 Meta 完全措手不及,并迫使他們放棄了以前版本的 Llama 4 并重新進(jìn)行整個(gè)訓(xùn)練。
總而言之
- Llama 模型是構(gòu)建代理應(yīng)用程序的基礎(chǔ)(可以將其視為他們對(duì) PyTorch 或 React 所做的)。Meta 工具是 AI 訓(xùn)練和網(wǎng)站開發(fā)的基礎(chǔ),使其能夠影響行業(yè)的發(fā)展方向。例如,如果 Meta 正在開發(fā)專用硬件,它可以確保 PyTorch 開箱即用地支持它。
- Meta 利用開源創(chuàng)新循環(huán),通過其社交應(yīng)用為客戶提供模型的改進(jìn)版本。例如,Llama 3 為開源社區(qū)創(chuàng)建的特定任務(wù)提供了幾乎無限的微調(diào)模型。由于 Meta 圍繞 Llama 構(gòu)建其 AI 戰(zhàn)略,它實(shí)際上是有人免費(fèi)為它工作,并且可以不費(fèi)吹灰之力地采用這些微調(diào)的模型。
本文由 @來學(xué)習(xí)一下 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)
不知道是機(jī)翻還是ai生成,讀起來不太通順。