DeepSeek开源3FS和Smallpond,以重新定义AI基础设施

作者
Lang Wang
10 分钟阅读

DeepSeek发布3FS和Smallpond:人工智能基础设施的下一次飞跃?

通过DeepSeek的3FS和Smallpond突破人工智能瓶颈

DeepSeek在人工智能基础设施方面采取了一项大胆举措,在其#OpenSourceWeek的第五天开源了两个突破性项目——3FS(Fire-Flyer文件系统)和Smallpond。 这些创新解决了长期困扰人工智能训练和推理工作负载的基础存储和数据处理瓶颈。 虽然大部分人工智能竞赛都集中在模型和算法上,但DeepSeek正在从根本上解决问题,优化基础设施以实现更快、更具可扩展性的人工智能应用。

对于投资者、开发人员和企业人工智能战略家来说,此次发布的意义远不止又一项开源贡献。 3FS和Smallpond标志着人工智能公司构建、部署和货币化其技术的方式发生了转变。 让我们分解一下这些工具的独特之处、它们的潜在影响以及这对人工智能基础设施的未来意味着什么。


3FS:为人工智能时代设计的分布式文件系统

为什么传统存储无法满足大规模人工智能的需求

人工智能模型的爆炸式增长已将传统存储架构推向极限。 训练大型模型需要快速数据检索、大规模并行处理和无缝检查点。 传统的的文件系统难以跟上,导致计算能力浪费和成本增加。

DeepSeek的3FS通过高性能、解耦的存储解决方案直接解决了这些挑战,该解决方案专为人工智能工作负载而设计。 与将存储与计算耦合的传统存储解决方案不同,3FS采用了不感知局部性的设计。 这使人工智能应用程序能够访问数千个SSD和存储节点上的数据,而无需数据局部性约束的开销。

3FS的主要创新

  • 高吞吐量和可扩展性:在压力测试中,3FS在180节点集群上实现了6.6 TiB/s的峰值读取吞吐量,为以人工智能为中心的文件系统树立了新的性能基准。
  • 强大的数据一致性,保证可靠训练:具有分配查询的链式复制确保人工智能模型可以在没有意外数据不一致的情况下进行训练,从而减少调试时间并提高可靠性。
  • 针对人工智能工作负载进行了优化
  • 数据加载器集成:无需手动数据集预取,从而缩短了训练时间。
  • 检查点效率:支持高吞吐量检查点,以避免GPU空闲周期。
  • KVCache优化:为基于DRAM的推理缓存提供了一种经济高效的替代方案,从而提高了LLM的效率。
  • 多引擎KV存储:3FS支持MemDB(内存缓存)、LevelDB(持久存储)和RocksDB(高性能可扩展存储),允许组织根据工作负载需求定制其存储方法。

投资者须知:人工智能计算成本很高,而由于存储效率低下造成的处理能力浪费是一个价值数十亿美元的问题。 3FS提供了一个直接的解决方案,使人工智能训练更具成本效益和可扩展性。 优化人工智能训练和推理流水线的公司可能会迅速采用3FS,从而可能在人工智能基础设施初创公司中创造新的投资机会。


Smallpond:轻量级、高性能的数据处理

数据在人工智能可扩展性中的作用

人工智能模型的好坏取决于它们处理的数据。 大规模数据准备、转换和分析传统上需要像Apache Spark这样的重量级框架,这会带来复杂性和运营开销。 Smallpond提供了一个引人注目的替代方案——一个轻量级、由DuckDB驱动的框架,专为海量人工智能数据集而设计,而无需复杂的基础设施。

是什么让Smallpond脱颖而出?

  • 专为PB级数据集构建:高效处理PB级人工智能数据集,而无需长时间运行的服务。
  • 与3FS无缝集成:利用相同的存储后端,确保最佳性能和可扩展性。
  • 高效的排序和转换:通过在30分钟内排序110.5 TiB的数据来证明,使用GraySort基准测试实现了3.66 TiB/min的平均吞吐量
  • Python式的简洁性:与重量级数据引擎不同,Smallpond提供了一个直观的Python API,降低了人工智能开发人员的学习曲线。

投资者须知:数据处理效率低下是人工智能运营中的一项隐性成本。 Smallpond的轻量级、可扩展的方法可能会颠覆人工智能中传统的ETL(提取、转换、加载)工作流程,为现有企业解决方案提供一个有价值的替代方案。


DeepSeek的战略:将开源作为人工智能基础设施策略

为什么选择开源?

虽然OpenAI和Anthropic正在加倍采取闭源策略,但DeepSeek正在玩一场不同的游戏——开源基础人工智能基础设施,以建立一个加速创新、吸引人才并促进社区采用的生态系统。

开源3FS和Smallpond的商业案例

  • 在没有专有障碍的情况下锁定生态系统:基于3FS和Smallpond构建的公司成为DeepSeek生态系统的一部分,从而提高了其在人工智能基础设施中的长期影响力。
  • 加速内部人工智能开发:通过利用其自身的高性能存储和数据框架,DeepSeek可以比依赖第三方解决方案的竞争对手更快地进行迭代。
  • 通过服务和企业支持获利:虽然核心技术是开放的,但DeepSeek可以通过托管服务、云托管版本或企业支持合同来实现盈利。

投资者须知:如果执行得当,开源基础设施策略可能会带来丰厚的利润。 红帽在企业Linux中的成功以及Databricks在大数据领域的统治地位表明,开放平台如何演变成价值数十亿美元的业务。 DeepSeek的战略使其成为人工智能基础设施领域的潜在领导者,为专有AI公司提供了强有力的对策。


最终想法:为什么这对人工智能的未来至关重要

DeepSeek开源发布3FS和Smallpond不仅仅是一个技术里程碑——这是对人工智能基础设施未来的声明。 随着人工智能模型变得越来越复杂和数据密集,该行业需要可扩展、具有成本效益的存储和处理解决方案。 3FS和Smallpond为下一代人工智能基础设施提供了一个蓝图——一个优先考虑效率、可扩展性和可访问性的蓝图。

对于投资人工智能的企业而言,采用3FS和Smallpond可以显著降低基础设施成本,同时提高训练和推理速度。 对于投资者而言,开源人工智能基础设施的兴起为新的SaaS模型、托管人工智能服务和下一代云平台带来了机遇。

主要收获:

  • 3FS消除了人工智能训练和推理中的存储瓶颈,有可能大规模降低人工智能基础设施成本。
  • Smallpond简化了海量人工智能数据处理,为传统ETL流水线提供了一种高效的替代方案。
  • DeepSeek的开源战略使其成为人工智能基础设施领域的长期领导者,遵循了红帽和Databricks的剧本。
  • 向人工智能原生基础设施解决方案的转变正在加速,从而创造了除人工智能模型之外的新投资机会。

接下来是什么? 如果DeepSeek继续沿着这条轨迹发展,我们可能会看到人工智能网络、模型优化和硬件加速方面的更多基础设施级创新。 目前,3FS和Smallpond为人工智能公司应如何处理其后端架构树立了新标准。

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯