DeepSeek 的颠覆性人工智能突破:NSA 大幅削减成本并增强长上下文语言模型

作者
Lang Wang
8 分钟阅读

原生稀疏注意力:彻底改变大型语言模型中的长上下文处理

DeepSeek 发布了一篇开创性的新研究论文,题为 "原生稀疏注意力:硬件对齐和原生可训练的稀疏注意力",介绍了原生稀疏注意力 (NSA)——一种变革性方法,旨在解决大型语言模型处理长上下文序列时的计算瓶颈。NSA 因其硬件优化的稀疏注意力机制而从以前的方法中脱颖而出,从而实现高效的长上下文建模,同时保持甚至超过传统全注意力模型的性能。

Yuan 等人的这项研究直接解决了 LLM 中与自注意力机制相关的不断升级的计算成本。NSA 基于一种分层稀疏策略构建,该策略集成了粗粒度令牌压缩、细粒度令牌选择和滑动窗口注意力。与主要关注推理效率的现有稀疏注意力方法不同,NSA 是原生可训练的,允许模型从头开始学习稀疏注意力模式,而不是依赖于事后稀疏化。

此外,NSA 在设计时考虑了硬件对齐,特别是针对现代 GPU(例如,NVIDIA Tensor Core)进行了优化,确保理论上的计算节省转化为实际效率。凭借其在训练和推理方面的显着加速,NSA 有可能彻底改变 LLM 在法律 AI、自主代理和企业知识检索等行业的可扩展性


主要收获

  • 原生可训练的稀疏注意力:NSA 旨在在训练期间学习稀疏性,从而确保与事后稀疏注意力方法相比,具有更好的收敛性和性能。
  • 分层稀疏策略
    • 粗粒度压缩减少了总令牌数,同时保留了全局上下文。
    • 细粒度令牌选择保留了最关键的局部细节。
    • 滑动窗口注意力确保局部依赖关系保持不变。
  • 硬件对齐效率
    • 针对 Tensor Core 利用率进行了优化,以确保最小的内存碎片。
    • 使用分块令牌选择来提高 GPU 缓存效率。
  • 性能和速度提升
    • 64k 上下文长度下,前向传递速度提高 9 倍,后向传递速度提高 6 倍
    • 解码速度提高 11.6 倍,使长上下文处理实用且具有成本效益
    • 长上下文基准测试中,优于现有的稀疏注意力模型(例如,H2O、Quest、InfLLM)。
  • 强大的商业和研究意义
    • 通过优化内存和计算开销来降低云计算成本。
    • 支持实时长上下文应用,如聊天机器人、文档检索和代码完成。
    • 为训练具有 100k+ 令牌上下文的模型提供了一种可扩展的替代方案。

深入分析:为什么 NSA 是一个游戏规则改变者

稀疏注意力的一次范式转变

由于其二次计算复杂度,LLM 中的传统注意力机制在处理长上下文序列时会遇到困难。NSA 通过引入独特的稀疏策略组合来解决这个问题:

  1. 平衡分层稀疏性

    • 与仅关注令牌压缩(例如,KV 缓存修剪)或选择(例如,分块 KV 选择)的现有方法不同,NSA 结合了两者
    • 分层机制确保保留重要的令牌,同时保持计算的总体减少。
  2. 硬件感知设计

    • NSA 的架构针对 Tensor Core 和 GQA/MQA 架构现代加速器进行了优化。
    • 采用以组为中心的数据加载和共享 KV 获取,确保GPU 内存碎片最小化。
  3. 从头开始训练与事后稀疏化

    • 许多现有的稀疏注意力机制仅设计用于推理,在训练完整注意力模型应用稀疏性。
    • 然而,NSA 是原生可训练的,这意味着模型在预训练期间学习最佳的稀疏注意力模式本身——从而实现更好的泛化和效率。
  4. 在效率与性能之间取得适当的平衡

    • NSA 在通用、长上下文和推理任务保持全注意力级别的准确性
    • 提高推理能力的同时,实现了显着的计算节省,AIME 推理基准测试的改进证明了这一点。

对 AI 行业的实际影响

  1. 加速 LLM 训练和推理

    • NSA 的训练感知稀疏性转化为企业大规模部署 LLM 时的成本和训练时间的大幅减少。
    • 使更多的企业能够在不牺牲性能的情况下构建具有成本效益的 LLM 应用程序
  2. 使长上下文 AI 成为可能

    • 许多现实世界的 AI 应用程序需要处理大量文档、冗长的对话和代码库
    • NSA 有助于更快、内存效率更高的 AI 模型,为法律 AI、医学研究和企业搜索领域的突破铺平道路。
  3. 更快的会话 AI 和生成模型

    • NSA 的 11.6 倍解码速度提升使其非常适合 聊天机器人、个人 AI 助手和自动化内容生成实时应用
    • 低延迟推理确保在 客户支持和 AI 驱动的编码助手等高需求应用中获得无缝的用户体验。

你知道吗?NSA 的意外见解

  • 稀疏注意力可能比全注意力更好:与稀疏性会降低模型性能的普遍看法相反,NSA 证明结构化稀疏性可以增强推理,同时保持效率。
  • NSA 不仅仅是速度提升:虽然其 9 倍的训练速度提升令人印象深刻,但其真正的作用在于使长上下文建模在经济上可行,以用于实际应用。
  • 针对 NVIDIA Tensor Core 进行了优化——那么 TPU 呢?:NSA 专为 GPU 加速而构建,但未来针对 Google TPU 和 AMD Instinct 芯片的优化可能会进一步扩展其可用性。
  • 企业 AI 可以变得更容易获取:通过降低计算要求,NSA 可以实现 AI 采用的民主化,使初创企业和中型企业能够降低高级 AI 开发的准入门槛。

稀疏注意力领域的一项突破

NSA 是优化 LLM 的长上下文处理方面向前迈出的一大步。凭借其可训练性、分层稀疏性和硬件对齐,它有可能重塑 AI 模型效率的未来。通过解决传统注意力机制的关键限制,并为长上下文建模提供经济上可行的解决方案,NSA 成为人工智能领域的一项变革性创新

AI 研究界和行业领导者应注意——NSA 很可能成为解锁下一代超高效、高性能 LLM 的关键。

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯