DeepSeek 的 AI 基础设施革命性地降低了成本;社区呼吁 DeepSeek 与 GPT 创造者 Altman 一同获得诺贝尔奖
AI 效率的典范
DeepSeek 公布了其 AI 推理系统前所未有的透明度,详细介绍了其基础设施、成本效率和潜在利润率。 这些数据点震撼了整个 AI 基础设施行业,让竞争对手不得不努力证明其自身的成本结构是合理的。
这是他们 X 平台上发布的关于这项突破性 AI 基础设施进步的新发现: 🚀 开源周第 6 天:还有一件事 – DeepSeek-V3/R1 推理系统概述
通过以下方式优化吞吐量和延迟: 🔧 跨节点 EP 驱动的批量扩展 🔄 计算-通信重叠 ⚖️ 负载均衡
DeepSeek 在线服务统计: ⚡ 每个 H800 节点每秒 73.7k/14.8k 输入/输出 token 🚀 成本利润率 545%
💡 我们希望本周的见解能为社区带来价值,并为我们共同的 AGI 目标做出贡献。 📖 深度探索:https://bit.ly/4ihZUiO
DeepSeek 的方法主要围绕大规模专家并行,结合先进的负载均衡、token 缓存和硬件效率策略。 他们从 H800 GPU 中榨取极限性能的能力提高了 AI 服务提供商的标准。 但更重要的是,他们披露的成本-利润计算揭示了 AI 行业仍然存在多少低效率。
大规模 AI 推理:DeepSeek 的技术优势
专家并行:秘密武器
DeepSeek 采用多节点专家并行,将其模型分解为数百个专家,每层只激活少数几个。 这种设置实现了:
- 通过优化 GPU 矩阵运算并最大限度地减少每个 GPU 的内存负载,从而提高吞吐量并降低延迟。
- 通过先进的双批量流水线系统,重叠计算和通信以减少空闲 GPU 周期,从而降低通信开销。
- 在数据并行组和专家分片之间进行动态负载均衡,防止 GPU 瓶颈并保持跨节点的一致效率。
硬件利用率和成本优化
DeepSeek 专门部署 H800 GPU,实现与训练设置相当的推理精度。 它还利用 FP8 格式进行矩阵计算,并利用 BF16 进行注意力机制,确保精度和速度之间的最佳平衡。 该系统还采用:
- 动态部署扩展 – 在高峰时段充分利用资源,在夜间将资源重新分配给训练。
- KVCache 硬盘缓存 – 56.3% 的输入 token 被缓存,从而减少冗余计算并大幅降低成本。
- 流水线式计算-通信重叠 – 解码中的多阶段流水线结构最大限度地提高了效率。
盈利能力重磅炸弹:545% 的利润率?
DeepSeek 披露的数字令人震惊:
- 24 小时 GPU 成本: 87,072 美元(H800 租金估计为每个 GPU 每小时 2 美元)
- 每日处理的输入 token: 6080 亿(其中 56.3% 命中 KVCache)
- 每日生成的输出 token: 1680 亿
- 峰值推理负载: 278 个节点(最大容量下使用约 2500 个 GPU)
- 理论最大收入(如果通过 API 完全货币化): 每天 562,027 美元
- 估计利润率: 545%(如果所有 token 都按 DeepSeek R1 定价收费)
这个数字正在AI 基础设施领域引起轰动。 如果 DeepSeek 能够以这种效率水平运行,为什么其他 AI 提供商难以实现收支平衡?
对 AI 基础设施和云提供商的深远影响
1. 基础设施团队面临巨大压力
有了这种程度的成本透明度,其他公司的内部 AI 基础设施团队现在承受着巨大的压力。 如果您的利润率远低于 DeepSeek 的利润率,您需要证明原因。 依赖高成本 GPU 租赁的基于云的 AI 服务现在可能会发现自己处于危险的境地。
2. 低效 AI 部署的终结
DeepSeek 的效率优势来自于从其 GPU 中榨取每一盎司的性能。 其他提供商——尤其是那些依赖通用云基础设施的提供商——将难以达到这种程度的成本优化,除非他们:
- 采用专家并行并优化批量大小。
- 实施基于 KVCache 的存储解决方案。
- 利用 FP8/BF16 等硬件级精度优化。
3. AI 创业公司面临清算
许多 AI 创业公司在尝试构建可扩展的推理模型时,都依赖于昂贵的云 GPU 租赁。 DeepSeek 的披露有效地重塑了 AI 推理的经济性。 如果您的模型没有经过优化,那么每个 token 的成本将会显著提高,从而使您的商业模式在长期内难以维持。
4. 开源颠覆加速
DeepSeek 不仅仅是在谈论效率——它还在开源其大部分基础设施工具:
- FlashMLA – 针对 NVIDIA Hopper GPU 优化的解码内核。
- DeepEP – 一种首创的 MoE 专家并行通信库。
- DeepGEMM – 优化的 FP8 矩阵乘法。
- DualPipe & EPLB – 负载均衡和流水线效率工具。
- 3FS – 用于 AI 工作负载的并行文件系统。
这意味着竞争对手不能再忽视这些优化。 如果您没有采用它们,您就落后了。
预测:接下来会发生什么?
1. API 价格将大幅下降
既然 DeepSeek 已经暴露了 AI 推理背后的实际成本结构,预计 API 提供商将开始降价。 如果您的 API 比 DeepSeek 的 API 贵得多,客户将开始要求解释——或者迁移。
2. MoE 成为行业标准
专家混合模型长期以来一直备受争议,但 DeepSeek 的实施证明了其大规模效率。 那些抵制 MoE 采用的 AI 提供商现在将不得不重新考虑——因为如果您不使用它,您就是在为计算支付过高的费用。
3. 基础设施军备竞赛将加剧
随着 DeepSeek 公开其优化,预计会迎来一波快速采用浪潮。 其他 AI 公司的基础设施团队要么适应,要么被淘汰。 云 GPU 定价和部署策略将成为一个竞争激烈的战场,AI 创业公司将被迫重新思考其基础设施战略。
4. 投资者将开始提出棘手的问题
这不仅仅是一项技术启示,更是一项财务清算。 AI 创业公司和云提供商的投资者现在将要求更高的效率指标,并质疑为什么他们的投资组合公司没有以 DeepSeek 的利润率运营。
AI 行业刚刚经历了一次现实检验
DeepSeek 有效地推翻了许多关于 AI 基础设施成本的假设。 通过公开其效率指标和理论利润率,他们设定了竞争对手无法忽视的新的行业基准。
对于 AI 基础设施领域的人来说,信息很明确:适应或被抛弃。 低效 AI 推理的时代已经结束,未能优化的公司将会发现自己难以保持相关性。
DeepSeek 不仅仅是另一家 AI 公司——他们正在改写 AI 效率的规则。 如果您不关注,您就已经落后了。