DeepGEMM:改变人工智能计算经济学的开源库
深势科技一周内第三次开源:你需要了解的
为了大胆地推动人工智能效率的边界,深势科技本周发布了第三个开源项目——DeepGEMM,这是一个轻量级但高性能的矩阵乘法库,专为 FP8 精度设计。此前,该公司还发布了 FlashMLA 和 DeepEP,进一步巩固了其对人工智能基础设施开放式创新的承诺。
DeepGEMM 针对 NVIDIA Hopper GPU 进行了优化,这是下一代人工智能工作负载的关键推动因素。它支持标准密集 通用矩阵乘法 和 混合专家分组GEMM,使其成为加速大规模人工智能模型推理和训练的关键工具。
为什么 DeepGEMM 很重要
1. FP8:人工智能效率的下一个前沿
DeepGEMM 专为 FP8 精度算法 设计,这是人工智能计算效率的一大进步。传统的人工智能工作负载主要依赖于 FP16 和 BF16,但 FP8 提供 更高的吞吐量和更低的内存带宽使用率,使其成为扩展大规模人工智能模型的理想选择。
然而,FP8 具有一个固有的挑战——数值精度较低。DeepGEMM 通过引入 CUDA 核心两级累加 来解决这个问题,从而在保持 FP8 速度优势的同时,减轻精度损失。这项创新使 DeepGEMM 能够达到甚至超过行业标准库(如 CUTLASS)设定的性能基准,同时显著降低计算开销。
2. 高性能,低复杂性
与许多依赖于深度嵌套模板和过度抽象的人工智能计算库不同,DeepGEMM 在设计上 简单而高效。核心实现仅包含 约 300 行 CUDA 代码,这不仅使其高度优化,而且 易于理解和修改。
3. 专为即时编译而设计
DeepGEMM 通过利用 JIT 编译 避免了传统编译的需要。这意味着 安装时不需要预编译,从而允许在运行时编译内核。这种方法可以基于特定的硬件配置进行动态优化,从而确保最高的效率。
4. MoE 优化,适用于下一代人工智能模型
MoE 架构因其 高效扩展并保持成本效益 的能力而在人工智能领域越来越受欢迎。DeepGEMM 通过以下方式对 MoE 模型进行了独特的优化:
- 连续分组 GEMM,其中对令牌序列进行分组以进行最佳处理。
- 掩码分组 GEMM,即使在专家激活稀疏的情况下也能实现高效计算。
这些优化使 DeepSeek-V3 的人工智能模型速度更快、成本效益更高,从而在 MoE 计算性能方面树立了新的标杆。
性能基准测试
深势科技在 NVIDIA H800 SXM5 GPU 上针对各种 矩阵大小和工作负载 测试了 DeepGEMM。结果令人信服:
- 与之前的实现相比,速度提高了高达 2.7 倍。
- 在不同的矩阵形状上始终保持较高的 TFLOPS(万亿次浮点运算/秒)。
- 卓越的内存带宽利用率,确保高效的 GPU 资源分配。
虽然 DeepGEMM 在大多数情况下表现出色,但 某些矩阵形状仍有进一步优化的空间,深势科技已邀请开发人员通过 GitHub 贡献增强功能。
战略和市场影响
1. 深势科技正在引发人工智能 API 价格暴跌
深势科技已经 颠覆 了定价规范。深势科技的 API 价格是 OpenAI 同类产品的十分之一,这一举动已经引发了 人工智能服务提供商的恐慌。这不仅仅是关于价格低廉,而是关于 重新定义市场预期。
如果深势科技的模型效率提升得以持续,人工智能基础设施提供商将面临 一场残酷的价格战,类似于云计算领域臭名昭著的逐底竞争。OpenAI、Anthropic 和 Cohere 别无选择,只能 要么匹配定价,要么以无与伦比的价值来证明其高端产品,但目前看来这越来越困难。
2. NVIDIA 的垄断地位得到略微加强
DeepGEMM 对 Hopper GPU 的关注加强了 NVIDIA 在高性能人工智能计算领域的地位,但这具有双重影响。一方面,这些优化通过降低人工智能运营的总成本使 NVIDIA 硬件更具吸引力,从而激励更多参与者选择其生态系统。另一方面,效率的提高意味着 每个参与者可能需要更少的 GPU,从而可能从长远来看降低对 NVIDIA 硬件的总体需求。如果深势科技和类似的参与者想要挑战 NVIDIA 的主导地位,他们可能仍然需要扩展对 AMD MI300 和 Intel Gaudi 加速器 的支持,以创建一个更具竞争力的局面。
3. MoE 模型是未来,深势科技深知这一点
深势科技积极推动 MoE 优化计算 表明行业正在发生转变。由于 MoE 模型允许以显著更低的计算成本进行扩展,因此传统的架构很快将被视为 效率低下的遗物。任何未能适应的人工智能公司都 有被淘汰的风险。
深势科技显然 押注于 MoE 的主导地位,并且其在优化 MoE 工作负载方面的早期领导地位意味着竞争对手可能难以赶上。预计主要的人工智能实验室将在未来 12 个月内 争先恐后地寻找更好的 MoE 实现方案。
展望未来:人工智能计算的下一步是什么?
DeepGEMM 不仅仅是一个库,它代表了 人工智能计算效率的哲学转变。随着深势科技系统地优化人工智能基础设施的各个方面,该行业正朝着超高效、低成本的人工智能模型发展。
需要关注的一些关键趋势:
- FP8 采用范围扩大: 随着 DeepGEMM 树立先例,更多的人工智能框架可能会将 FP8 集成作为标准。
- 进一步的开源贡献: 社区可以将 DeepGEMM 的优化扩展到 NVIDIA Hopper 以外的更多架构。
- 人工智能计算民主化: 如果深势科技的优化得以持续,运行大规模人工智能模型可能会变得 中型公司和初创企业也能负担得起,从而打破科技巨头的垄断。
最后的想法
DeepGEMM 的发布不仅仅是一个技术里程碑,它还是一个 具有行业范围影响的战略举措。通过使 人工智能计算更加高效、经济和易于访问,深势科技正在重塑人工智能研究和部署的竞争格局。
现在真正的问题是:OpenAI、NVIDIA 和其他人工智能巨头将如何反击? 如果他们未能适应,深势科技可能不仅仅是一个弱者,它可能会重新定义人工智能经济本身。