FlashMLA:突破性开源技术,将英伟达 Hopper GPU 的性能推向极限
深势科技的 FlashMLA 为 AI 推理效率树立新标杆
在“开源周”的第一天,深势科技推出了 FlashMLA,这是一种专为 英伟达 Hopper GPU(特别是 H800 型号)优化的高级 MLA(多头潜在注意力)解码内核。此举不仅提高了大型语言模型的推理速度,还挑战了现有的专有优化,将 可用于生产环境的 AI 效率 带入了开源领域。
数据令人信服:
- 内存带宽:3,000 GB/s
- 计算性能:580 TFLOPS(BF16 精度)
这些优化意味着 更快的处理速度、更低的内存开销,以及对大规模 AI 模型的更好支持,使其有可能成为部署生成式 AI 公司的游戏规则改变者。
是什么让 FlashMLA 成为游戏规则改变者?
1. 为 Hopper GPU 优化——将硬件性能推向极限
FlashMLA 利用英伟达 Hopper GPU 内的 Tensor Cores 和 Transformer 引擎,从硬件中提取峰值性能。通过减少内存瓶颈并最大限度地提高吞吐量,深势科技的方法实现了即使是英伟达自己的软件堆栈也可能无法完全利用的效率水平。
2. 变长序列处理——一项关键优势
传统的 AI 模型在处理不同输入长度时会遇到困难,需要填充或低效的批处理技术。FlashMLA 通过动态处理变长序列来解决这个问题,从而优化了聊天机器人、机器翻译和其他 NLP 应用的推理。
3. 分页 KV 缓存——减少内存浪费
内存使用是 AI 推理中的一个关键限制。FlashMLA 引入了 具有 64 块大小的分页 KV 缓存,从而实现更智能的内存分配。这最大限度地减少了不必要的计算,与传统技术相比,减少了高达 30% 的内存浪费。
4. BF16 精度——平衡准确性和速度
支持 BF16 (Brain Floating Point) 格式使 FlashMLA 能够在计算速度和精度之间取得平衡。通过 尽可能使用低位精度,它提高了吞吐量,而不会影响模型准确性。
5. MLA 中的低秩投影——内存效率的突破
深势科技的 多头潜在注意力 引入了一种低秩投影技术,将键值矩阵压缩 到仅为其原始大小的 5-13%,同时保持性能。这显著减少了 Transformer 模型的内存占用,这是在不需要昂贵的硬件升级的情况下扩展 AI 模型的一项关键改进。
商业和行业影响
对于 AI 初创企业和企业:更低的成本,更高的吞吐量
通过优化现有硬件,FlashMLA 使公司能够 运行更大的 AI 模型,而无需投资于昂贵的 GPU 集群。这对于部署 AI 驱动应用程序的初创企业和企业尤其有价值,例如:
- 需要快速响应时间的 客户支持机器人。
- 具有动态对话生成的 实时游戏 NPC。
- 需要对成像和诊断进行更快推理的 医疗 AI 模型。
对于云和 AI 基础设施提供商:竞争优势
对于 像 AWS、Azure 和 Google Cloud 这样的云提供商 而言,采用 FlashMLA 可能意味着以 更低的成本提供更高效的 AI 推理,直接使依赖于基于云的 LLM 部署的企业客户受益。
对于投资者:对专有 AI 优化的威胁
开源 FlashMLA 标志着 英伟达在 AI 模型优化方面的主导地位可能受到冲击。传统上依赖于英伟达专有软件堆栈的公司现在可能会转向开源替代方案,以获得更大的灵活性和成本节约。
此外,FlashMLA 的优化可能会推动 替代 AI 硬件的采用,尤其是在希望减少对美国控制的技术堆栈的依赖的 中国公司 中。这可能会影响英伟达在高性能 AI 加速器市场中的长期定价能力。
分析、预测和更大的图景
深势科技的 FlashMLA 不仅仅是优化现有硬件,它还 从根本上改变了 AI 加速领域的实力平衡。虽然英伟达长期以来控制着其 GPU 周围的软件生态系统,但此次发布暴露了一个 关键漏洞:专有优化不再是实现效率的唯一途径。
1. 开源作为一种战略武器
采用 MIT 许可的 FlashMLA 不仅仅是一项技术进步,它还是对 英伟达软件锁定策略的直接挑战。通过使高性能 AI 推理在 英伟达专有生态系统之外 可用,深势科技使开发人员和企业能够在 没有供应商依赖的情况下 进行创新。这种转变反映了开源软件在云计算、数据库甚至操作系统中崛起对抗封闭平台的趋势。
2. 对 AI 硬件竞争的影响
FlashMLA 的优化不仅有利于英伟达的 Hopper GPU,它们 还可以适用于替代 AI 加速器,包括中国的国产芯片。凭借 有利于内存高效架构的分页机制,竞争对手可以 利用这些技术 来提高 非英伟达芯片 的性能,从而加速 AI 硬件的多样化。
3. 深势科技的策略:将开源作为市场杠杆
深势科技的举动不仅仅是为了社区的善意,它还是一个 战略性举措,旨在按照自己的条件构建 AI 生态系统。如果 FlashMLA 得到广泛采用,深势科技将为在英伟达硬件上实现高效推理创建了一个 事实上的标准,这可能会扩展到 定制 AI 硬件解决方案。这最终可能会使深势科技成为 AI 基础设施创新领域的领导者,而不仅仅是一个模型提供商。
4. 对英伟达未来软件战略的压力
英伟达的统治地位不仅建立在硬件之上,还建立在 CUDA、cuDNN 和专有优化之上。如果像 FlashMLA 这样的开源替代方案被证明同样有效或更好,英伟达可能被迫重新考虑其战略,从而可能开放以前封闭的生态系统部分。这反映了 Linux 和开源驱动程序曾经如何迫使英特尔和微软采取更开放的方法。
向 AI 民主化的转变
FlashMLA 代表的不仅仅是效率的提高,它还是朝着 分散 AI 硬件性能提升 的战略举措。在深势科技的带领下,AI 行业可能会看到一个未来,开源 AI 优化成为常态,而不是例外。
对于企业而言,这意味着 更低的部署成本和更少的供应商依赖。对于 AI 硬件竞争对手而言,这标志着一个 挑战英伟达主导地位的机会。而对于英伟达自身而言,这是一个紧急呼吁,即 加倍投入专有价值,否则就有可能在开放创新中失去阵地。
随着开源 AI 革命的加速,有一点是明确的:这仅仅是个开始。