英伟达推出搭载DeepSeek-R1和Blackwell GPU的破纪录AI推理系统

英伟达的AI革命：DeepSeek-R1打破推理速度纪录

AI计算的又一次飞跃

英伟达再次突破了AI计算的界限。在2025年的GTC大会上，该公司宣布了一项突破性成就：其DGX系统，配备八个Blackwell GPU，在运行 DeepSeek-R1模型 时，创造了AI推理速度的世界纪录——这是一个 6.71万亿参数 的强大模型。该系统可以处理 超过每秒30,000个tokens的峰值吞吐量，单个用户可以达到 每秒250个tokens，这种性能飞跃重新定义了实时AI交互。

这一里程碑不仅强调了英伟达在AI硬件市场的主导地位，也预示着AI计算的更广泛转变——推理速度，而不仅仅是模型训练，决定了竞争优势。

性能激增的分解

这次飞跃背后的核心创新是 英伟达Blackwell GPU架构与其TensorRT-LLM软件堆栈之间的深度优化。以下几个关键技术进步有助于性能提升：

第五代Tensor核心： Blackwell GPU具有增强的 FP4精度支持，从而降低了内存消耗并加快了计算速度。
动态批处理和量化： TensorRT的推理优化，包括智能动态批处理和量化技术，显著提高了效率。
能源效率： 尽管具有高性能，但新系统降低了每个推理任务的能耗，从而提高了运营成本效益。

与之前的 基于Hopper的DGX H200 相比，新的DGX系统在相同任务上的性能提高了三倍。更令人印象深刻的是，自2025年1月以来，DeepSeek-R1的吞吐量增加了 惊人的36倍，而每个token的推理成本下降了 32倍。

这对企业和投资者意味着什么

1. 降低AI采用的门槛

对于企业而言，部署大规模AI模型的财务和基础设施障碍已大大降低。以前需要多个AI服务器才能处理的任务现在可以由 单个DGX系统 处理，从而简化了成本并提高了效率。这种高性能AI的普及可以加速各行各业的采用，从金融到医疗保健。

2. 从训练到推理的范式转变

英伟达的最新举措突显了一个战略性的行业转变：AI的竞争优势正在从模型训练转向推理速度和效率。从历史上看，重点一直放在开发更大的模型上，但实际应用需要实时性能。英伟达对推理加速的押注使其成为大规模AI部署的主要推动者。

3. 优于竞争对手的竞争优势

创纪录的推理速度巩固了英伟达对竞争对手（如 AMD、英特尔和新兴的定制AI芯片提供商）的主导地位。与 Meta的Llama 3系列 的比较表明，英伟达的推理吞吐量至少高出三倍，从而巩固了其在高性能AI市场的优势。

此外，英伟达首席执行官黄仁勋强调 “现在AI推理的计算需求比去年增加了100倍”，这一声明旨在反击对其英伟达芯片高昂定价的批评。

接下来是什么？

AI竞赛仍在继续

虽然英伟达的进步是无可争议的，但关键问题仍然存在。DeepSeek-R1的性能是否会转化为广泛采用，或者 封闭源代码的AI模型是否会限制其部署灵活性？ OpenAI、Google DeepMind和Anthropic 等竞争对手是否会转向推理优化以保持竞争力？

可以肯定的是：AI响应速度慢的时代已经结束。 随着推理速度达到前所未有的水平，从虚拟助手到自动驾驶系统，基于AI的应用程序将以近乎即时的响应速度运行。

对于企业和投资者而言，这是一个明确的信号：AI的下一个前沿不仅仅是构建更大的模型，而是以思维的速度运行它们。