DeepSeek 的颠覆性人工智能突破：NSA 大幅削减成本并增强长上下文语言模型

原生稀疏注意力：彻底改变大型语言模型中的长上下文处理

DeepSeek 发布了一篇开创性的新研究论文，题为 "原生稀疏注意力：硬件对齐和原生可训练的稀疏注意力"，介绍了原生稀疏注意力 (NSA)——一种变革性方法，旨在解决大型语言模型处理长上下文序列时的计算瓶颈。NSA 因其硬件优化的稀疏注意力机制而从以前的方法中脱颖而出，从而实现高效的长上下文建模，同时保持甚至超过传统全注意力模型的性能。

Yuan 等人的这项研究直接解决了 LLM 中与自注意力机制相关的不断升级的计算成本。NSA 基于一种分层稀疏策略构建，该策略集成了粗粒度令牌压缩、细粒度令牌选择和滑动窗口注意力。与主要关注推理效率的现有稀疏注意力方法不同，NSA 是原生可训练的，允许模型从头开始学习稀疏注意力模式，而不是依赖于事后稀疏化。

此外，NSA 在设计时考虑了硬件对齐，特别是针对现代 GPU（例如，NVIDIA Tensor Core）进行了优化，确保理论上的计算节省转化为实际效率。凭借其在训练和推理方面的显着加速，NSA 有可能彻底改变 LLM 在法律 AI、自主代理和企业知识检索等行业的可扩展性。

主要收获

原生可训练的稀疏注意力：NSA 旨在在训练期间学习稀疏性，从而确保与事后稀疏注意力方法相比，具有更好的收敛性和性能。
分层稀疏策略：
- 粗粒度压缩减少了总令牌数，同时保留了全局上下文。
- 细粒度令牌选择保留了最关键的局部细节。
- 滑动窗口注意力确保局部依赖关系保持不变。
硬件对齐效率：
- 针对 Tensor Core 利用率进行了优化，以确保最小的内存碎片。
- 使用分块令牌选择来提高 GPU 缓存效率。
性能和速度提升：
- 在 64k 上下文长度下，前向传递速度提高 9 倍，后向传递速度提高 6 倍。
- 解码速度提高 11.6 倍，使长上下文处理实用且具有成本效益。
- 在长上下文基准测试中，优于现有的稀疏注意力模型（例如，H2O、Quest、InfLLM）。
强大的商业和研究意义：
- 通过优化内存和计算开销来降低云计算成本。
- 支持实时长上下文应用，如聊天机器人、文档检索和代码完成。
- 为训练具有 100k+ 令牌上下文的模型提供了一种可扩展的替代方案。

深入分析：为什么 NSA 是一个游戏规则改变者

稀疏注意力的一次范式转变

由于其二次计算复杂度，LLM 中的传统注意力机制在处理长上下文序列时会遇到困难。NSA 通过引入独特的稀疏策略组合来解决这个问题：

平衡分层稀疏性
- 与仅关注令牌压缩（例如，KV 缓存修剪）或选择（例如，分块 KV 选择）的现有方法不同，NSA 结合了两者。
- 分层机制确保保留重要的令牌，同时保持计算的总体减少。
硬件感知设计
- NSA 的架构针对 Tensor Core 和 GQA/MQA 架构等现代加速器进行了优化。
- 采用以组为中心的数据加载和共享 KV 获取，确保GPU 内存碎片最小化。
从头开始训练与事后稀疏化
- 许多现有的稀疏注意力机制仅设计用于推理，在训练完整注意力模型后应用稀疏性。
- 然而，NSA 是原生可训练的，这意味着模型在预训练期间学习最佳的稀疏注意力模式本身——从而实现更好的泛化和效率。
在效率与性能之间取得适当的平衡
- NSA 在通用、长上下文和推理任务中保持全注意力级别的准确性。
- 在提高推理能力的同时，实现了显着的计算节省，AIME 推理基准测试的改进证明了这一点。

对 AI 行业的实际影响

加速 LLM 训练和推理
- NSA 的训练感知稀疏性转化为企业大规模部署 LLM 时的成本和训练时间的大幅减少。
- 使更多的企业能够在不牺牲性能的情况下构建具有成本效益的 LLM 应用程序。
使长上下文 AI 成为可能
- 许多现实世界的 AI 应用程序需要处理大量文档、冗长的对话和代码库。
- NSA 有助于更快、内存效率更高的 AI 模型，为法律 AI、医学研究和企业搜索领域的突破铺平道路。
更快的会话 AI 和生成模型
- NSA 的 11.6 倍解码速度提升使其非常适合 聊天机器人、个人 AI 助手和自动化内容生成等实时应用。
- 低延迟推理确保在 客户支持和 AI 驱动的编码助手等高需求应用中获得无缝的用户体验。

你知道吗？NSA 的意外见解

稀疏注意力可能比全注意力更好：与稀疏性会降低模型性能的普遍看法相反，NSA 证明结构化稀疏性可以增强推理，同时保持效率。
NSA 不仅仅是速度提升：虽然其 9 倍的训练速度提升令人印象深刻，但其真正的作用在于使长上下文建模在经济上可行，以用于实际应用。
针对 NVIDIA Tensor Core 进行了优化——那么 TPU 呢？：NSA 专为 GPU 加速而构建，但未来针对 Google TPU 和 AMD Instinct 芯片的优化可能会进一步扩展其可用性。
企业 AI 可以变得更容易获取：通过降低计算要求，NSA 可以实现 AI 采用的民主化，使初创企业和中型企业能够降低高级 AI 开发的准入门槛。

稀疏注意力领域的一项突破

NSA 是优化 LLM 的长上下文处理方面向前迈出的一大步。凭借其可训练性、分层稀疏性和硬件对齐，它有可能重塑 AI 模型效率的未来。通过解决传统注意力机制的关键限制，并为长上下文建模提供经济上可行的解决方案，NSA 成为人工智能领域的一项变革性创新。

AI 研究界和行业领导者应注意——NSA 很可能成为解锁下一代超高效、高性能 LLM 的关键。