Llama 4 發(fā)布:我看到了 DeepSeek 的影子

0 評論 1955 瀏覽 0 收藏 6 分鐘
🔗 B端产品需要更多地依赖销售团队和渠道合作来推广产品,而C端产品需要更多地利用网络营销和口碑传播来推广产品..

隨著人工智能技術的飛速發(fā)展,大型語言模型(LLM)的競爭日益激烈。Meta 最新發(fā)布的 Llama 4 模型,以其獨特的架構和策略,引發(fā)了行業(yè)的廣泛關注。本文深入分析了 Llama 4 的三大核心特點:采用混合專家(MoE)架構、原生多模態(tài)能力以及將大模型作為訓練過程的工具。

Llama 4 發(fā)布了。

https://huggingface.co/meta-llama

Llama 4 的三款模型

但這次,它沒有高調宣稱參數(shù)量“遙遙領先“,而是通過三款模型來重新布局:

  • Scout:109B 參數(shù),17B 激活,16 專家 MoE,可部署在單張 H100 上,10M token 長上下文,適用于文檔分析、多輪對話、代碼等任務
  • Maverick:400B 參數(shù),17B 激活,128 專家 MoE,1M token 長上下文:400B 參數(shù),128 專家,推理僅激活兩個。對標 GPT-4o,性能不遜色,推理成本僅為其十分之一
  • Behemoth:2T 參數(shù),288B激活,16 專家 MoE,不部署、不開放,僅用于訓練階段,為 Scout 和 Maverick 生成訓練數(shù)據(jù)

一個用、一主力、一教學,不卷彼此,也不試圖通吃所有任務。

講道理,看這個發(fā)布的時候,我總隱隱有當時讀 DeepSeek V3 技術報告的感覺:擁抱 MoE,擁抱合成數(shù)據(jù)

架構轉向:MoE 登上主舞臺

Lllma 3 是 Dense,哪怕 400B 的模型都是 Dense;而 Llama 4 是 MoE 架構。

MoE 大概就是這樣

過去,MoE 更多還是“實驗室選項”,自 DeepSeek 大火后,很多廠商開始嘗試將其用于主力模型,比如這次的 Meta。在 Llama 4 中,模型 Scout 配置 16 專家,而 Maverick 則是 128 專家,推理時都只激活兩個,17B的量。

回顧一下,DeepSeek 在 R1 和 V3 中也是類似:671B 總參數(shù),37B 激活,用更可控的計算開銷,換來模型能力密度的提升。

當然,得說一下,MoE 并不適合所有任務場景,也存在調度復雜、專家平衡等訓練難題。但它至少打開了一個現(xiàn)實維度:參數(shù)使用方式,和參數(shù)數(shù)量本身一樣值得被設計。多模態(tài):從外掛走向原生

Llama 3 時代,圖像輸入依賴外掛 encoder,與語言模型拼接;Llama 4 時代,圖像直接作為 token 輸入,參與語言上下文建模。

這意味著:圖文不是模型之后拼出來的,而是在訓練中就一體建模的語境單位。

這種結構帶來的提升,在任務表現(xiàn)中非常直接:

  • Maverick 在 DocVQA 拿下 94.4,超過 GPT-4o(92.8)
  • ChartQA 達到 90.0,MathVista 73.7,均高于 GPT-4o
  • 推理成本卻僅為 GPT-4o 的十分之一

Maverick 跑分成績

而原生多模態(tài)架構也體現(xiàn)在 Scout 身上——雖然是輕量模型,但在 DocVQA、ChartQA 上,Scout 依然打出了高于同尺寸模型(甚至部分大模型)的穩(wěn)定表現(xiàn)。

Scout 跑分成績

此處說一下, DeepSeek 的 V3/R1 仍未引入圖像 token

訓練轉向:大模型是過程

Behemoth 最大號的 Llama4,很強,但它不對外。

Behemoth:這是個不對外的模型

Behemoth的全部作用,是生成訓練數(shù)據(jù),為 Scout 和 Maverick 提供能力示范,并通過輕量 DPO 和 RLHF 進一步優(yōu)化行為。

換句話說,Meta 并不再執(zhí)著于“最強模型”上線,而是選擇把最大資源投入到訓練系統(tǒng)本身。

這個事兒,有點像:

OpenAI 開發(fā)了「草莓」,來訓練新的 GPT

DeepSeek 開發(fā)了 DeepSeek-R1-Light 來訓練 DeepSeek V3

《DeepSeek-V3 Technical Report》

不是封神,而是轉向

在我看來,Llama 4 并沒有帶來參數(shù)最大、能力最強的單點突破。但它用一個更完整、更分工明確的體系,回應了模型設計正在發(fā)生的變化:

Scout 是部署,Maverick 是交付,Behemoth 是理解力的源頭

與其說是一次產(chǎn)品發(fā)布,更像是宣告一次路線調整。

本文由人人都是產(chǎn)品經(jīng)理作者【賽博禪心】,微信公眾號:【賽博禪心】,原創(chuàng)/授權 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
37401人已学习23篇文章
不知道这些问题,你出去都不敢说自己是做电商运营的。
专题
19453人已学习14篇文章
合同管理系统的建设,实现公司对合同的录入登记、审批、履约管理、监控执行、查询、统计等功能。本专题的文章分享了合同管理的设计指南。
专题
15289人已学习13篇文章
说到“账号”,想必大家对于这个名词已经习以为常。现在市场上的大多数应用,都会有自己的账号体系。本专题的文章分享了如何搭建账号体系。
专题
19512人已学习13篇文章
本专题的文章分享了跨境支付的行业、发展、支付方式和商业等信息。
专题
12092人已学习12篇文章
电商平台,是兼具媒体和消费场景两大属性的平台,因此衍生出了多种营销模式。本专题的文章分享了电商如何做营销。
专题
14072人已学习12篇文章
行业总是处于动态变化之中,那么,处于大环境下的产品经理应当如何规划好自身、选择合适的工作方向呢?本专题的文章分享了产品经理的职业方向和规划。