Meta缺失的巨头:Llama 4巨兽仍未出现,竞争对手正在逼近

作者
CTOL Editors - Ken
13 分钟阅读

聚光灯下,幕布之后:那只尚未出现的巨兽

在4月5日爆发的一片欢呼雀跃的推文、技术直播和YouTube分析视频的回音中,一个真相悄悄地隐藏在阴影里——Meta最重要的语言大模型,Llama 4 Behemoth,还没有发布。 当全世界都在为Llama 4 Scout和Maverick的发布欢呼时,Meta的旗舰产品——它为了应对与OpenAI、Anthropic和谷歌之间日益激烈的竞争而推出的秘密武器——仍然没有发布,还在训练中,而且可能已经落后于计划。

Meta宣称启动了“多模态AI的新时代”,但在光滑的工程设计和大胆的声明背后,知情人士描述了一种越来越大的压力锅——一场疯狂的竞赛,目的是在竞争对手准备发布下一波开源模型时保持领先地位。

“我们需要展示一些东西——尤其是在你们报道了我们的延误之后——真的什么都行。赶在竞争对手的新版本扼杀我们的新宝宝之前,”一位Meta的通用人工智能工程师今天告诉我们。

这就是Llama 4背后不为人知的故事。


已经发布的模型:Scout 和 Maverick

从表面上看,Llama 4 ScoutLlama 4 Maverick 的发布是开源社区的一个里程碑。这些模型建立在混合专家架构之上,推动了推理效率、上下文长度和多模态能力的前沿。Scout——一个灵活的170亿活跃参数模型,拥有16个专家——拥有前所未有的1000万token上下文窗口,这是当今任何已发布模型都无法比拟的。它运行在单个H100 GPU上,面向小型研究人员、开发者和产品团队。

相比之下,Maverick是主力:相同的活跃大小,但由128个专家和4000亿个总参数提供支持。它直接与 DeepSeek V3Gemini 2.0 FlashGPT-4o 竞争,以更低的推理成本提供类似的性能。

“这是目前市场上性价比最高的,”一位人工智能基准分析师说。“如果你使用Llama 4 Maverick进行构建,你不仅能获得OpenAI级别的推理能力,而且还能以一小部分的GPU周期来实现。”

早期指标证实了这一点:Maverick已经在 LM Arena 上获得了 1417 分(CTOL 编辑 Ken:我们不太信任 LM Arena,但这是目前唯一可用的),将其置于顶级行列,但由于投票有限,置信区间很大。

然而,尽管这些模型令人印象深刻,但它们并不是 Meta 最初计划的头条新闻。

Llama 4 Maverick 官方基准测试结果
Llama 4 Maverick 官方基准测试结果


发布会上的幽灵:Behemoth 仍然在幕后

在 Scout 和 Maverick 的盛况背后,Llama 4 Behemoth 明显缺席。它拥有 2880 亿个活跃参数16 个专家,总大小接近 2 万亿个参数,其设计目的不仅是匹配,而且是在技术基准上超越 GPT-o3 mini、Claude Sonnet 3.7 和 Gemini 2.5 Pro。在内部,它被认为是 Meta 的第一个“前沿模型”——拥有改变 LLM 排行榜的原始智商的模型。

但 Behemoth 的训练仍在进行中。它的发布日期仍然模糊。而这种沉默说明了一切。

“训练过程消耗了大量资源,”Meta 工程师告诉我们。“这并不顺利。我个人不确定它现在与前三名相比会落在哪里——Gemini 2.5 Pro、Claude 3.7、O3 Mini。”

虽然 Meta 已经发布了在 STEM 领域(如 MATH-500 和 GPQA Diamond)取得基准胜利的消息,但他们对通用或对话性能方面却明显保持沉默——这对许多人工智能分析师来说是一个危险信号。

一家人工智能基础设施公司的一位资深机器学习工程师推测,“在这个参数计数下,资源瓶颈和 RL 管道的不稳定扩展” 可能是导致延迟的原因。其他人则指出战略原因:“Meta 不想冒险发布 Behemoth,除非它能保证顶级结果——太多的东西都押在了它身上。”

这不仅包括声望,还包括更深层次的存在赌注:如果 Llama 4 Behemoth 未能明显优于 Claude 或 Gemini,Meta 可能会失去其在人工智能统治军备竞赛中的地位,即使是在它帮助定义的开源领域。


Maverick 和 Scout:优雅的工程设计,战术上的部署

Maverick 和 Scout 提供的最好的是中量级领域的最佳创新。Meta 对 MoE 架构的选择——长期以来被认为过于复杂而无法调整或部署——现在已成为其王牌。

Scout 中,每个 token 仅路由到 16 个专家中的一个加上一个共享层,从而在不牺牲质量的情况下实现计算效率。它的 1000 万 token 上下文长度 不仅仅是一个技术奇迹——它可能是一个范式转变。

“你正在谈论总结整个代码存储库、多文档推理或代理的持久内存,”一位研究人员说。“这是一场功能革命。”

另一方面,Maverick 将这种效率提高到单主机级别,拥有 4000 亿个总参数、混合专家路由和增强的多模态流畅性。它支持 文本 + 图像输入,并在视觉问答和编码基准(如 ChartQALiveCodeBench)上占据主导地位。

他们的训练过程同样严格。通过使用渐进式 基于课程的后期训练管道,Meta 删除了“简单数据”,使用内部判断模型过滤提示,并通过 仅限困难提示选择 循环强化学习——这是一种残酷但有效的性能提升方法。

Scout 和 Maverick 都是从 Behemoth 中提炼出来的——Meta 称之为“共蒸馏”。但该教师模型的全部含义仍然未知。


早期测试中与领先模型相比的失败:Llama 4 Maverick vs. Claude 3.7 Sonnet

在早期的正面逻辑测试中,Meta 的 Llama 4 Maverick 难以与 Claude 3.7 Sonnet 的性能相匹配。两款模型都被要求解决一个自定义的 4×7 矩阵推理谜题,其中涉及幻想元素和 15 条复杂的线索。虽然 Claude 迅速完成了任务,并在第一次尝试时交付了一致的、可验证的解决方案,但 Maverick 需要多次延续,并且反复未能通过验证检查——最初将重复的工艺品分配给一个角色,后来承认其逻辑中存在“致命的矛盾”。即使在多次更正之后,它仍然遗漏线索并引入新的不一致之处。测试人员指出,Maverick 的非正式风格,包括表情符号和缩写,进一步混淆了其推理。尽管这只是一个测试,但它引发了人们对 Maverick 在结构化问题解决中的可靠性的早期担忧,尤其是在 Meta 尚未发布其旗舰 Behemoth 模型的情况下。 并且再说一次,Meta 需要发布一个可靠的 Behemoth 模型才能在与顶级模型的竞争中保持相关性。


带有星号的开源

Meta 长期以来一直将 Llama 定位为开源人工智能的先锋。但 Llama 4 的许可引发了争议。“7 亿 MAU”条款禁止任何拥有超过 7 亿月活跃用户的实体免费使用它——实际上阻止了科技巨头自由采用它。

“这是一个矛盾,”一位人工智能倡导者说。“如果它为你的竞争对手设置了陷阱,你就不能称之为开放。”

更糟糕的是,分发受到限制:要下载,用户必须填写表格,收到一个有时限的链接,并且只允许在 48 小时内下载五次

这些人为的限制令许多开发者感到沮丧。正如一位早期使用 Scout 的社区建设者所说:

“这是我用过的最好的小型模型。但推出呢?感觉更像是申请护照,而不是下载开源模型。”


风险:2025 年的人工智能战略

Behemoth 的缺席为什么重要?

因为我们现在处于 开源人工智能战争的时代,延迟、每 token 成本以及在困难推理任务上的性能不仅定义了产品的可行性,还定义了国家战略。

Meta 的 Scout 和 Maverick 模型在大多数指标上 击败了 Gemini 2.0 Flash。但它们 没有 击败 Claude 3.7 Sonnet Thinking 或 Gemini 2.5 Pro。只有 Behemoth 才有机会做到这一点。

而且竞争对手并没有等待。

有传言称,DeepSeek 将在 5 月初发布其下一代具有完整代码推理能力的开源模型。据报道,OpenAI 正在准备其 第一个开源模型

如果 Meta 在这些发布之前未能推出 Behemoth,Llama 4 的炒作浪潮可能会在它巩固市场主导地位之前消散。


接下来是什么:Behemoth、LlamaCon 和真正的边疆

Meta 将赌注押在 4 月 29 日,届时它将举办 LlamaCon,承诺提供更多技术细节,并且——可能——公布 Behemoth 的发布窗口。行业观察人士表示,这可能是该公司人工智能路线图上的一个决定性时刻。

在此之前,我们有 Scout 和 Maverick:技术上非常出色、公开发布,但在战略上是临时的。

正如一位分析师所说:

“Llama 4 是 Meta 的开局之举——但结局取决于 Behemoth。”

人工智能的未来不仅仅是在公开场合构建。它还在幕后,在 32K 个 GPU 上进行训练,每一小时、每一个 token,都是一场与时间的赛跑。


总结:

  • Llama 4 Scout:一个 170 亿参数、1000 万上下文窗口的模型,可以放在单个 H100 GPU 上。它是紧凑型多模态模型的最佳选择。
  • Llama 4 Maverick:更大的 4000 亿参数模型,拥有 128 个专家。在大多数指标上击败 Gemini 2.0 Flash,具有令人印象深刻的性价比。
  • Llama 4 Behemoth:仍在训练中。拥有 2 万亿个参数,旨在挑战 Gemini 2.5 Pro、Claude 3.7 和 O3 Mini——但面临内部质疑。
  • Scout 和 Maverisk 是中端产品,无法击败 Claude Sonnet 3.7 或 Gemini 2.5 Pro 等顶级模型
  • 开放性问题:许可限制和下载门控引发了开源社区的批评。
  • 4 月 29 日在 LlamaCon:所有人的目光都转向 Meta 是否最终能够推出 Behemoth——以及它是否值得等待。

故事还没有结束。但就目前而言,舞台已经搭建完毕。Scout 速度很快。Maverick 很强大。 而 Behemoth 呢?它仍然在阴影中,仍在训练,仍然不确定。

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明