英伟达推出搭载DeepSeek-R1和Blackwell GPU的破纪录AI推理系统

作者
CTOL Editors - Ken
5 分钟阅读

英伟达的AI革命:DeepSeek-R1打破推理速度纪录

AI计算的又一次飞跃

英伟达再次突破了AI计算的界限。在2025年的GTC大会上,该公司宣布了一项突破性成就:其DGX系统,配备八个Blackwell GPU,在运行 DeepSeek-R1模型 时,创造了AI推理速度的世界纪录——这是一个 6.71万亿参数 的强大模型。该系统可以处理 超过每秒30,000个tokens的峰值吞吐量,单个用户可以达到 每秒250个tokens,这种性能飞跃重新定义了实时AI交互。

这一里程碑不仅强调了英伟达在AI硬件市场的主导地位,也预示着AI计算的更广泛转变——推理速度,而不仅仅是模型训练,决定了竞争优势。

性能激增的分解

这次飞跃背后的核心创新是 英伟达Blackwell GPU架构与其TensorRT-LLM软件堆栈之间的深度优化。以下几个关键技术进步有助于性能提升:

  • 第五代Tensor核心: Blackwell GPU具有增强的 FP4精度支持,从而降低了内存消耗并加快了计算速度。
  • 动态批处理和量化: TensorRT的推理优化,包括智能动态批处理和量化技术,显著提高了效率。
  • 能源效率: 尽管具有高性能,但新系统降低了每个推理任务的能耗,从而提高了运营成本效益。

与之前的 基于Hopper的DGX H200 相比,新的DGX系统在相同任务上的性能提高了 三倍。更令人印象深刻的是,自2025年1月以来,DeepSeek-R1的吞吐量增加了 惊人的36倍,而每个token的推理成本下降了 32倍

这对企业和投资者意味着什么

1. 降低AI采用的门槛

对于企业而言,部署大规模AI模型的财务和基础设施障碍已大大降低。以前需要多个AI服务器才能处理的任务现在可以由 单个DGX系统 处理,从而简化了成本并提高了效率。这种高性能AI的普及可以加速各行各业的采用,从金融到医疗保健。

2. 从训练到推理的范式转变

英伟达的最新举措突显了一个战略性的行业转变:AI的竞争优势正在从模型训练转向推理速度和效率。从历史上看,重点一直放在开发更大的模型上,但实际应用需要实时性能。英伟达对推理加速的押注使其成为大规模AI部署的主要推动者。

3. 优于竞争对手的竞争优势

创纪录的推理速度巩固了英伟达对竞争对手(如 AMD、英特尔和新兴的定制AI芯片提供商)的主导地位。与 Meta的Llama 3系列 的比较表明,英伟达的推理吞吐量至少高出 三倍,从而巩固了其在高性能AI市场的优势。

此外,英伟达首席执行官黄仁勋强调 “现在AI推理的计算需求比去年增加了100倍”,这一声明旨在反击对其英伟达芯片高昂定价的批评。

接下来是什么?

AI竞赛仍在继续

虽然英伟达的进步是无可争议的,但关键问题仍然存在。DeepSeek-R1的性能是否会转化为广泛采用,或者 封闭源代码的AI模型是否会限制其部署灵活性OpenAI、Google DeepMind和Anthropic 等竞争对手是否会转向推理优化以保持竞争力?

可以肯定的是:AI响应速度慢的时代已经结束。 随着推理速度达到前所未有的水平,从虚拟助手到自动驾驶系统,基于AI的应用程序将以近乎即时的响应速度运行

对于企业和投资者而言,这是一个明确的信号:AI的下一个前沿不仅仅是构建更大的模型,而是以思维的速度运行它们。

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明