Grok 3 使用 10 万个 GPU 仅获得少量提升,AI 热潮遭遇扩展瓶颈

作者
CTOL Editors - Ken
9 分钟阅读

Grok 3:强大的幻觉?人工智能竞赛遭遇收益递减

引言:人工智能炒作周期再次上演

埃隆·马斯克最新的人工智能项目 Grok 3 被宣传为颠覆者,号称在推理、数学问题解决和编码方面有显著改进。该模型使用了约 10 万个英伟达 H100 GPU 进行训练,这是前所未有的计算能力,旨在超越 OpenAI 和 DeepSeek,在人工智能领域占据主导地位。

然而,尽管投入了惊人的资源进行开发,但 Grok 3 的实际 性能提升似乎并不显著。早期的基准测试结果表明,与现有模型相比,改进幅度很小,这让人质疑这项投资是否合理,或者仅仅是 以营销为导向的炒作,旨在提升 xAI 的影响力。投资者和分析师们开始提出疑问:人工智能行业是否已经触及了增长的瓶颈?


1. 扩展定律之争:收益在哪里?

关于人工智能研究中 扩展定律 的讨论长期以来存在分歧。普遍的观点是,增加模型大小和计算能力可以带来更好的性能。然而,Grok 3 的出现,这个假设正受到严峻的挑战

  • Grok 3 的计算能力大约是其前身 Grok 2 的 10 倍,但关键人工智能基准测试的改进却微乎其微——通常只有个位数的百分比
  • 它的推理和问题解决能力虽然有所提高,但并没有达到能够证明其在能源和成本方面巨大飞跃的突破性进展。
  • DeepSeek R1 相比,后者通过算法创新而非蛮力计算来优化性能,这表明可能需要采取更 具战略性的人工智能扩展方法

这种计算利用率的低下,为行业提出了一个关键问题:未来的发展方向是通过更好的工程设计,而不仅仅是更大的硬件吗?


2. 基准测试问题:Grok 3 的选择性透明

人工智能社区非常依赖基准测试来客观地评估模型性能。然而,Grok 3 报告的测试结果 提出的问题多于答案

  • 缺少关键基准测试: 与大多数人工智能发布不同,Grok 3 没有报告 MMLU(大规模多任务语言理解)分数,这是衡量通用智能的标准指标。相反,它强调了在 数学、科学和编码 方面的性能提升,这些领域可以通过有针对性的优化来获得看似令人印象深刻的结果,但可能无法反映人工智能推理能力的更广泛改进。
  • 竞技场基准测试受到质疑: Grok 3 的早期验证主要来自 Arena,这是一个竞争性的人工智能排名系统,但因其 容易被选择性测试方法所操控 而备受批评。用户长期以来指出,Arena 的排名会受到提交的提示类型的影响,使其成为衡量现实世界人工智能能力的不可靠指标
  • 缺乏真实世界的测试: 与允许广泛公众审查的 DeepSeek 开源模型 不同,Grok 3 的测试环境受到严格控制。这种缺乏透明度加剧了人们的怀疑,即 报告的收益可能无法在各种现实世界的应用中保持

由于关于 Grok 3 的真实水平存在如此多的 未解之谜,一些人称其发布更像是一场 公关噱头,而不是真正的技术进步


3. 能源和成本问题:人工智能是否触及瓶颈?

除了 Grok 3 令人质疑的性能提升之外,最令人担忧的是推动该模型发展所需的 大量能源和财政资源

  • 据报道,训练使用了 10,000 多个 H100 GPU,这在 资本和能源消耗 方面都是一笔巨大的开支。
  • 与 DeepSeek R1 和 OpenAI 的 O3 mini 相比,性能仅提升了 10%,这引发了人们对蛮力扩展 收益递减 的严重担忧。
  • 一些估计表明,训练 Grok 3 消耗的能量相当于为一个中等城市供电数月,这使 可持续性问题 成为关注的焦点。

人工智能行业现在正处于十字路口:公司应该继续投资于 大规模计算集群 以获得微小的改进,还是转向 算法效率 作为更可行的长期解决方案?


4. 市场影响:Grok 3 对 OpenAI 构成真正的威胁吗?

尽管 Grok 3 存在技术缺陷,但其发布仍然具有重要的 市场影响

  • 定价模式保持不变:免费提供 的 DeepSeek 不同,Grok 3 仍然是一个 付费模型。这限制了它的可访问性,并引发了它是否能 真正与 OpenAI 的 ChatGPT Plus 或谷歌的 Gemini 2.0 竞争 的问题。
  • 未对 OpenAI 的地位产生重大冲击: 虽然 Grok 3 显示出令人敬佩的改进,但它并未提供 明显的竞争优势。随着 OpenAI 准备发布 GPT-4.5,Grok 3 的影响是否能持续超出最初的炒作周期尚不确定。
  • 缺乏开源的可访问性: DeepSeek R1 的开源方法使其成为研究人员和初创公司的 首选模型。相比之下,Grok 3 仍然是一个 黑盒 系统,社区参与度很低,这使其长期采用变得不太确定。

底线是什么?Grok 3 并非其声称的行业颠覆者。


结论:人工智能行业必须重新思考其战略

Grok 3 的发布强化了人工智能发展中日益增长的担忧:我们是否已经达到了增加更多 GPU 不再转化为有意义突破的程度?

  • 大规模的计算投资正在带来收益递减,Grok 3 的性能提升未能证明其巨大的资源消耗是合理的。
  • 选择性基准测试和缺乏透明度 削弱了人们对 Grok 3 实际能力的信任。
  • 人工智能的进步可能需要转变重点——从原始计算能力转向 算法效率、训练数据创新和更可持续的扩展策略

对于投资者来说,教训很明显:并非所有的人工智能进步都是平等的,投入更多资金用于更大的模型可能不是最好的前进方向。 该行业现在面临一个选择:继续走不可持续的 GPU 竞赛之路,还是优先考虑更智能、更高效的人工智能架构。答案可能决定人工智能本身的未来。

未来展望?

Grok 3 的真正考验将在未来几个月内到来,届时它将面临 实际应用 以及来自 OpenAI 即将推出的 GPT-4.5 的竞争。它能否证明其巨大的成本是合理的,还是会被人们铭记为又一次人工智能炒作周期的失败? 只有时间会告诉我们答案。

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯