Nemotron-H 对比 Transformers - 可将 AI 推理成本降低 3 倍的混合模型

Nemotron-H 对比 Transformer：混合模型有望削减 3 倍 AI 推理成本

AI 的下一个前沿不是更智能，而是更精简、更快、更便宜

在人工智能开发的竞赛中，更大通常意味着更好。更大的模型、更多的参数、更长的训练时间。但一个新的竞争者 Nemotron-H 正在挑战这一模式——不是通过提高上限，而是通过使整个结构更加高效。

Nemotron-H 由英伟达的研究人员开发，是熟悉的 Transformer 架构和较新的 Mamba 状态空间模型之间的混合体，它不是要实现边际改进。它的设计目的是大幅减少推理时间和内存成本，同时保持最先进的水平。随着 FP8 训练精度和轻量级模型压缩方面的创新，这项研究可能预示着人工智能行业在性能和可扩展性方面的方法转变。

对于关注大型语言模型运营成本不断上涨的投资者、人工智能研究人员和企业领导者来说，这篇论文提供的不仅仅是学术上的兴趣——它暗示了一条在更适度的硬件上部署强大人工智能的可行的商业路线图。

1. Nemotron-H 正在解决什么问题？

基于 Transformer 的大型语言模型的扩展限制是众所周知的。它们对自注意力机制的依赖导致计算和内存的二次增长，因为输入序列变得更长。这是实际部署中的一个关键瓶颈——尤其是在需要实时响应的面向客户的服务中。

Nemotron-H 直接解决了这个问题。通过策略性地用 Mamba 和 Mamba-2 层（提供每个 token 恒定时间计算的状态空间模型）替换大多数自注意力层，该架构将推理成本与序列长度分离。

这使得构建响应更快、使用更少 GPU 内存，并且仍然产生高质量输出的大型模型成为可能。

2. Nemotron-H 有什么不同？

A. 混合架构：并非所有注意力都相同

该架构并没有完全丢弃自注意力。相反，它保留了大约 8% 的注意力层——有选择地定位以优化性能——而其余层依赖于 Mamba 组件和前馈网络 (FFN)。这种微调的设计实现了平衡，使 Nemotron-H 模型在具有竞争力的准确性的同时，在推理方面效率更高。

关键数据：最大的变体 Nemotron-H-56B 的推理速度比类似规模的传统 Transformer 模型快 3 倍。

B. FP8 训练：效率的飞跃

以较低精度格式训练大型模型通常意味着牺牲准确性。Nemotron-H 引入了一种 per-tensor current scaling technique，用于 FP8 训练，其性能可与 BF16 相媲美——BF16 是当今训练中广泛接受的格式。

该方法使用粗粒度量化，并且仅在关键层（如前几个和后几个 GEMM）中保持较高的精度。这使得更快的训练速度和更低的硬件需求成为可能，同时保留了下游任务的准确性。

对业务的影响：内部训练专有模型的公司可以大幅降低训练成本，而不会牺牲质量。

C. 使用 MiniPuzzle 进行模型压缩

另一项突出的创新是 MiniPuzzle，这是一个硬件感知压缩框架，它结合了剪枝和蒸馏。它将 56B 模型的大小缩小到 47B 参数——该版本保留了接近无损的准确性，但可以在单个 32GiB GPU 上运行。

1.2 倍的推理速度提升，且准确性损失极小。

这对于在 GPU 内存受限的环境中的部署具有重要意义——例如 边缘 AI、私有云部署或运行精简 AI 堆栈的初创公司。

3. 基准测试结果和实际性能

Nemotron-H 模型根据流行的开源 LLM（如 Qwen 和 LLaMA）进行了严格的测试。在包括 MMLU、GSM8K 和 HumanEval 在内的标准基准上进行评估，8B 和 56B 版本的性能都达到或高于其 Transformer 对应产品的水平。

同时，NVIDIA H100 GPU 上的推理吞吐量基准测试证实了理论上的速度提升。长上下文处理是传统 Transformer 的一个挑战，而 Nemotron-H 在这方面表现出色，可在不降低输出质量的情况下提供显着的吞吐量优势。

4. 这对人工智能研究人员和企业人工智能领导者有何重要意义

学术相关性

架构创新：Nemotron-H 的混合方法打破了 Transformer 的传统，为探索模型设计提供了一个新的视角。
FP8 训练方法：这可能会催化对大规模模型的低精度训练的新研究，从而影响未来的量化技术。
压缩和蒸馏：MiniPuzzle 引入了一种替代完全重新训练或简单剪枝的实用方法，具有实际应用性。

业务影响

经济高效的推理：2 倍–3 倍的速度提升可以显着降低基础设施成本，尤其是对于大规模部署的模型。
更广泛的部署：在单个 GPU 上运行接近 56B 的模型为中小型企业采用 LLM 打开了大门，而无需超大规模基础设施。
多模态扩展：该架构还支持视觉语言扩展，从而在零售、增强现实、医学成像和搜索领域创造机会。

5. 投资者和技术领导者的战略考虑因素

效率是新的护城河：随着开源 LLM 的持续普及，竞争优势将转向成本与性能之比，而不仅仅是原始能力。Nemotron-H 在这方面提供了一个引人注目的主张。
可持续性角度：FP8 训练和更小的模型占地面积减少了能源消耗，从而与 ESG 目标和运营可持续性工作保持一致。
先发优势：早期采用这种混合架构的公司可能会在部署既可扩展又在财务上可持续的人工智能方面获得领先优势。

范式转变，而不仅仅是迭代

Nemotron-H 的发布不仅仅是一个技术里程碑——它代表了我们如何看待扩展人工智能系统的方式的转变。通过实现更快的推理、有竞争力的准确性和在受限硬件上的可部署性，Nemotron-H 系列解决了实际人工智能采用的三个支柱：成本、速度和可访问性。

随着训练更大的模型变得越来越昂贵和对环境造成负担，像 Nemotron-H 这样的创新标志着一种朝着更智能的架构设计而不是蛮力扩展的转变。