Llama 4出來,Meta 馬斯克遇到了大麻煩。

1 評論 1541 瀏覽 0 收藏 11 分鐘

Meta最近推出了其最新的AI模型系列Llama 4,聲稱在多模態(tài)功能和性能上取得了顯著進步。然而,這一發(fā)布卻引發(fā)了廣泛的爭議和批評。

Meta 最近推出了其最新的 AI 模型系列 Llama 4,據(jù)稱引入了多模態(tài)功能的進步和…

Meta 最近推出了其最新的 AI 模型系列Llama 4,據(jù)稱引入了多模態(tài)功能和性能的進步。然而,結果不僅令人失望,而且完全是陰暗的。

Meta 現(xiàn)在處于非常麻煩的水域(AI 對其存在至關重要)。這在各個層面都有影響,第一次,哪個國家在開源 AI 方面處于領先地位(我認為,基于此,在一般的 AI 方面)。

Meta 令人失望的發(fā)布不僅對 Meta 的抱負來說是可怕的;這是一個國家安全威脅。

在一個充斥著使用難以理解的行話的虛假專家的世界里,第一性原理分析和人工智能通常不會放在一起。

Meta 花了異常長的時間(將近一年)才發(fā)布其 Llama 模型的新版本,該模型系列曾被認為是開源 AI 的前沿。

但根據(jù) Llama 4 的結果,情況已不再如此。事實證明,他們永遠不會交付一個好的模型,所以他們決定,嗯,做一個完全糟糕的交付,以至于:

Meta 作為前沿實驗室的日子現(xiàn)在已經(jīng)一去不復返了。

該版本模型包括兩個模型,第三個模型仍在開發(fā)中:

  1. Llama 4 Scout:該模型具有 170 億個活動參數(shù),使用 16 位專家,總計 1090 億個參數(shù)。據(jù)稱,它擁有 1000 萬個令牌的上下文窗口,旨在在單個 NVIDIA H100 GPU 上高效運行。這意味著,至少從理論上講,您可以在一個提示中向模型發(fā)送近 800 萬個單詞。
  2. Llama 4 Maverick:該模型也有 170 億個活動參數(shù),但雇傭了 128 名專家,累計參數(shù)總數(shù)達到 4000 億個。它經(jīng)過精心設計,在各種 AI 基準測試中優(yōu)于 GPT-4o 和 Gemini 2.0 Flash 等模型,并且可以在單個 NVIDIA H100 DGX 服務器 (8xH100s) 上運行。
  3. Llama 4 Behemoth:目前仍在訓練中,Behemoth 預計擁有 2880 億個活動參數(shù),總共大約2 萬億個參數(shù)。它的目標是在 STEM 基準測試中超越 GPT-4.5 和 Claude Sonnet 3.7 等模型,并被認為是教師模型(不是用來服務的,而是用來訓練較小的模型)。

起初,根據(jù)最初公布的結果,您會認為這是今年最好的版本之一,因為:

  • Maverick 在 LMArena 上取得出色的成績,LMArena 是世界上主要的“氛圍評估”,由數(shù)千名不同的用戶評判。
  • 兩個已發(fā)布的模型在幾個流行的基準測試中都取得了很好的結果,例如 GPQA Diamond(測試博士水平知識)。
  • 它在一些編碼基準測試中顯示出非常強大的結果。

但是當真人開始玩這些模型時,事情變得奇怪和尷尬,這些都是非常令人失望和有爭議的委婉說法。

自發(fā)布以來,Meta 一直面臨指控通過向 LMArena 基準測試平臺提交明確針對對話性能優(yōu)化的Llama 4 Maverick 的實驗版本來縱 AI 基準測試排名。

不過,關鍵是他們沒有透露這個實驗版本的存在,掩蓋了它不是主要版本,而是一個旨在最大化基準測試結果的微調(diào)版本的事實。大多數(shù)模型都沒有“基準測試調(diào)整”,這為 Meta 的模型提供了明顯的優(yōu)勢。

通俗地說,他們發(fā)布了一個針對該基準測試優(yōu)化的模型,但沒有披露這一點以獲得超大的結果,并使其看起來像 Llama 4 Maverick 是一個瘋狂的好模型。

但指控遠不止于此,有些人指責 Meta 在測試集上進行訓練。這是你在 AI 中能得到的最接近重叛罪的。

但是為什么?

在訓練模型時,您可以將可用數(shù)據(jù)隨機分為訓練集和測試集。這樣,您可以使用測試集來檢查模型在訓練集上訓練期間是否學習了有意義的模式。

  • 如果你的模型在訓練數(shù)據(jù)中表現(xiàn)良好,但在測試數(shù)據(jù)中表現(xiàn)不佳,則它已經(jīng)過度擬合到訓練數(shù)據(jù),也就是記住了它。這使得它在現(xiàn)實世界中毫無用處,因為它只能在與用于訓練的數(shù)據(jù)相同的數(shù)據(jù)中正常工作,而這種情況很少發(fā)生。
  • 相反,如果您的模型很好地“泛化”到測試數(shù)據(jù)中,則意味著該模型已經(jīng)從訓練數(shù)據(jù)中壓縮了所需的知識,這些知識可以應用于新的(分布內(nèi))數(shù)據(jù),使其可用。

但為什么這在 AI 中如此重要呢?讓我們看一個例子。假設您訓練一個模型來識別貓,并希望測試它是否真的檢測到圖像中的貓。

您為模型提供了一個訓練集,其中只有黑色和棕,而沒有橙,它們只出現(xiàn)在測試集中。如果您的模型了解貓是什么,它將了解到顏色并不能定義它是否是貓,并且應該“泛化”并將橙識別為貓,即使它從未見過貓。這就是我們所說的 “泛化”。

這實際上是一個非常糟糕的訓練數(shù)據(jù)分布,對模型完全不公平,因為你應該在其中包含 orange cats。此外,這并不是訓練和測試數(shù)據(jù)之間的純粹隨機分離,因為我們主動向模型隱藏了橙貓,這也是不好的做法,這只是為了證明我的觀點。

因此,通過進行這種分離,您可以測試模型是簡單地記住訓練集(貓只能是黑色或棕色,因為它所看到的只是黑色或棕色),還是真正理解了可推廣的模式(例如,所有貓都有四條腿、狹縫形的眼睛和一條尾巴)。因此,我們在訓練期間對模型隱藏了測試集,只在推理期間使用它來測試性能。

相反,Meta 被指責在測試集上訓練模型,這些測試集精確測試它是否真正泛化。

換句話說,用我們的類比來說,當測試集想看看 Meta 的模型理解貓也可以是橙色的時,Meta 正在秘密地對橙進行訓練以確保它確實如此,但這并不能證明模型真的理解貓。

如果屬實,這實際上是作弊,絕對是褻瀆數(shù)據(jù),對于一個被認為是——或者我應該說曾經(jīng)是——前 5 名 AI 實驗室的實驗室來說,這是絕對不能接受的。

該版本的亮點之一是這些模型在長上下文窗口下表現(xiàn)出色,據(jù)稱 Llama 4 Scout 訓練了 1000 萬個token。通俗地說,您可以發(fā)送最多 800 萬個單詞的模型提示(作為參考,這幾乎是整個哈利波特傳奇)。

然而,當人們在處理 100k 個tokens的提示時測試模型的準確性時,這些提示比聲稱的限制小了 100 倍,性能下降到 15%。

由于上下文窗口的時間越長,模型性能就越下降,因此聲稱模型可以處理一百倍大的提示的說法是可笑的,老實說,這是 Meta 的另一個赤裸裸的謊言,因為模型的性能更早地崩潰了。

總而言之,在當前階段,很難高估這些結果的可怕程度。由于所有其他競爭的 AI Labs 的內(nèi)部模型與 Gemini 2.5 Pro 一樣好或更好,很明顯 Meta 遠遠落后于曲線。

由于 Llama 4 是 Meta 對這種架構的第一次嘗試,很明顯,該架構幾乎是 DeepSeek v3 的復制品,更糟糕的是,它是最近的努力。這表明,當 DeepSeek 在幾個月前發(fā)布 v3 時, 它讓 Meta 完全措手不及,并迫使他們放棄了以前版本的 Llama 4 并重新進行整個訓練。

總而言之

  • Llama 模型是構建代理應用程序的基礎(可以將其視為他們對 PyTorch 或 React 所做的)。Meta 工具是 AI 訓練和網(wǎng)站開發(fā)的基礎,使其能夠影響行業(yè)的發(fā)展方向。例如,如果 Meta 正在開發(fā)專用硬件,它可以確保 PyTorch 開箱即用地支持它。
  • Meta 利用開源創(chuàng)新循環(huán),通過其社交應用為客戶提供模型的改進版本。例如,Llama 3 為開源社區(qū)創(chuàng)建的特定任務提供了幾乎無限的微調(diào)模型。由于 Meta 圍繞 Llama 構建其 AI 戰(zhàn)略,它實際上是有人免費為它工作,并且可以不費吹灰之力地采用這些微調(diào)的模型。

本文由 @來學習一下 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 不知道是機翻還是ai生成,讀起來不太通順。

    來自美國 回復
专题
61189人已学习12篇文章
业务流程图是最常见的图表之一,能看懂读懂是必修课,能绘制便是非常重要的选修课。
专题
12514人已学习13篇文章
本专题的文章分享了产品升级迭代应该怎么做,以及其中遇到的问题和思考。
专题
20017人已学习13篇文章
本专题的文章分享了产品经理面试题和解答思路。
专题
14962人已学习14篇文章
用户生命周期是每个产品经理都必须要注意的一个点,它能够衡量用户对产品产生的价值,也是运营手段的最终衡量指标。本专题的文章分享了如何做好用户生命周期管理。
专题
19579人已学习13篇文章
画像标签是由数据标签经过分析、加工处理,形成的更加抽象、易于理解的复合标签。本专题的文章分享了如何设计用户标签体系。
专题
126912人已学习33篇文章
小程序时代,产品经理和运营人员该如何拥抱这种变化?