Grok 3 使用 10 万个 GPU 仅获得少量提升，AI 热潮遭遇扩展瓶颈

Grok 3：强大的幻觉？人工智能竞赛遭遇收益递减

引言：人工智能炒作周期再次上演

埃隆·马斯克最新的人工智能项目 Grok 3 被宣传为颠覆者，号称在推理、数学问题解决和编码方面有显著改进。该模型使用了约 10 万个英伟达 H100 GPU 进行训练，这是前所未有的计算能力，旨在超越 OpenAI 和 DeepSeek，在人工智能领域占据主导地位。

然而，尽管投入了惊人的资源进行开发，但 Grok 3 的实际 性能提升似乎并不显著。早期的基准测试结果表明，与现有模型相比，改进幅度很小，这让人质疑这项投资是否合理，或者仅仅是 以营销为导向的炒作，旨在提升 xAI 的影响力。投资者和分析师们开始提出疑问：人工智能行业是否已经触及了增长的瓶颈？

1. 扩展定律之争：收益在哪里？

关于人工智能研究中 扩展定律 的讨论长期以来存在分歧。普遍的观点是，增加模型大小和计算能力可以带来更好的性能。然而，Grok 3 的出现，这个假设正受到严峻的挑战：

Grok 3 的计算能力大约是其前身 Grok 2 的 10 倍，但关键人工智能基准测试的改进却微乎其微——通常只有个位数的百分比。
它的推理和问题解决能力虽然有所提高，但并没有达到能够证明其在能源和成本方面巨大飞跃的突破性进展。
与 DeepSeek R1 相比，后者通过算法创新而非蛮力计算来优化性能，这表明可能需要采取更 具战略性的人工智能扩展方法。

这种计算利用率的低下，为行业提出了一个关键问题：未来的发展方向是通过更好的工程设计，而不仅仅是更大的硬件吗？

2. 基准测试问题：Grok 3 的选择性透明

人工智能社区非常依赖基准测试来客观地评估模型性能。然而，Grok 3 报告的测试结果 提出的问题多于答案：

缺少关键基准测试： 与大多数人工智能发布不同，Grok 3 没有报告 MMLU（大规模多任务语言理解）分数，这是衡量通用智能的标准指标。相反，它强调了在 数学、科学和编码 方面的性能提升，这些领域可以通过有针对性的优化来获得看似令人印象深刻的结果，但可能无法反映人工智能推理能力的更广泛改进。
竞技场基准测试受到质疑： Grok 3 的早期验证主要来自 Arena，这是一个竞争性的人工智能排名系统，但因其 容易被选择性测试方法所操控 而备受批评。用户长期以来指出，Arena 的排名会受到提交的提示类型的影响，使其成为衡量现实世界人工智能能力的不可靠指标。
缺乏真实世界的测试： 与允许广泛公众审查的 DeepSeek 开源模型 不同，Grok 3 的测试环境受到严格控制。这种缺乏透明度加剧了人们的怀疑，即 报告的收益可能无法在各种现实世界的应用中保持。

由于关于 Grok 3 的真实水平存在如此多的 未解之谜，一些人称其发布更像是一场 公关噱头，而不是真正的技术进步。

3. 能源和成本问题：人工智能是否触及瓶颈？

除了 Grok 3 令人质疑的性能提升之外，最令人担忧的是推动该模型发展所需的 大量能源和财政资源：

据报道，训练使用了 10,000 多个 H100 GPU，这在 资本和能源消耗 方面都是一笔巨大的开支。
与 DeepSeek R1 和 OpenAI 的 O3 mini 相比，性能仅提升了 10%，这引发了人们对蛮力扩展 收益递减 的严重担忧。
一些估计表明，训练 Grok 3 消耗的能量相当于为一个中等城市供电数月，这使 可持续性问题 成为关注的焦点。

人工智能行业现在正处于十字路口：公司应该继续投资于 大规模计算集群 以获得微小的改进，还是转向 算法效率 作为更可行的长期解决方案？

4. 市场影响：Grok 3 对 OpenAI 构成真正的威胁吗？

尽管 Grok 3 存在技术缺陷，但其发布仍然具有重要的 市场影响：

定价模式保持不变： 与 免费提供 的 DeepSeek 不同，Grok 3 仍然是一个 付费模型。这限制了它的可访问性，并引发了它是否能 真正与 OpenAI 的 ChatGPT Plus 或谷歌的 Gemini 2.0 竞争 的问题。
未对 OpenAI 的地位产生重大冲击： 虽然 Grok 3 显示出令人敬佩的改进，但它并未提供 明显的竞争优势。随着 OpenAI 准备发布 GPT-4.5，Grok 3 的影响是否能持续超出最初的炒作周期尚不确定。
缺乏开源的可访问性： DeepSeek R1 的开源方法使其成为研究人员和初创公司的 首选模型。相比之下，Grok 3 仍然是一个黑盒系统，社区参与度很低，这使其长期采用变得不太确定。

底线是什么？Grok 3 并非其声称的行业颠覆者。

结论：人工智能行业必须重新思考其战略

Grok 3 的发布强化了人工智能发展中日益增长的担忧：我们是否已经达到了增加更多 GPU 不再转化为有意义突破的程度？

大规模的计算投资正在带来收益递减，Grok 3 的性能提升未能证明其巨大的资源消耗是合理的。
选择性基准测试和缺乏透明度 削弱了人们对 Grok 3 实际能力的信任。
人工智能的进步可能需要转变重点——从原始计算能力转向 算法效率、训练数据创新和更可持续的扩展策略。

对于投资者来说，教训很明显：并非所有的人工智能进步都是平等的，投入更多资金用于更大的模型可能不是最好的前进方向。 该行业现在面临一个选择：继续走不可持续的 GPU 竞赛之路，还是优先考虑更智能、更高效的人工智能架构。答案可能决定人工智能本身的未来。

未来展望？

Grok 3 的真正考验将在未来几个月内到来，届时它将面临 实际应用 以及来自 OpenAI 即将推出的 GPT-4.5 的竞争。它能否证明其巨大的成本是合理的，还是会被人们铭记为又一次人工智能炒作周期的失败？只有时间会告诉我们答案。