DeepSeek开源第五弹:3FS & Smallpond 颠覆性数据处理神器登场,PB级数据轻松处理


 

刚刚 DeepSeek开源周最后一个开源日推出数据处理神器:Fire-Flyer File System (3FS) 和 Smallpond, 6.6 TiB/s 聚合吞吐,PB级 数据轻松处理

给大家简单划个重点

3FS:高性能分布式文件系统

3FS 是 “所有 DeepSeek 数据访问的动力引擎 (Thruster)”。 Fire-Flyer File System (3FS) 是一款高性能分布式文件系统,它充分利用了现代 SSD 固态硬盘和 RDMA (远程直接内存访问) 网络的强大带宽,为 AI 工作负载提供了卓越的存储基础设施

3FS 的核心特性和优势包括:

卓越的性能:

  • • 在一个由 180 个节点组成的集群上,实现了6.6 TiB/s 的聚合读取吞吐量
  • • 在 25 节点的集群上,GraySort 基准测试中达到了3.66 TiB/min 的吞吐量
  • • 每个客户端节点在 KVCache 查询中实现了超过 40 GiB/s 的峰值吞吐量

解耦架构与强一致性: 采用解耦架构,结合数千个 SSD 的吞吐量和数百个存储节点的网络带宽,使应用程序能够以与数据位置无关的方式访问存储资源。同时,通过实现带有分配查询的链式复制 (CRAQ) 来保证 强一致性,简化了应用程序代码并使其易于理解。

标准文件接口: 采用无状态元数据服务,并由事务性键值存储 (例如 FoundationDB) 支持,提供了通用的文件接口,无需开发者学习新的存储 API。

多样化的工作负载支持: 能够高效地处理各种 AI 工作负载,包括:

  • • 训练数据预处理
  • • 数据集加载
  • • 检查点保存和重新加载
  • • 嵌入向量搜索
  • • V3/R1 推理中的 KVCache 查询
  • • 数据准备: 有效地组织数据分析管道的输出到分层目录结构中,并管理大量的中间输出。
  • • 数据加载器: 消除预取或洗牌数据集的需求,支持跨计算节点随机访问训练样本。
  • • 检查点: 支持大规模训练的高吞吐量并行检查点。
  • • KVCache 推理缓存: 为推理提供经济高效的 DRAM 缓存替代方案,提供高吞吐量和更大的容量。

Smallpond:轻量级数据处理框架

Smallpond 是一款构建于 DuckDB 和 3FS 之上的轻量级数据处理框架。它旨在简化在 3FS 上进行数据处理的流程,并充分利用 DuckDB 的高性能分析能力

Smallpond 的主要特点包括:

  • • 轻量级和易用性: 提供简洁的 API 和易于理解的工作流程,方便用户快速上手。
  • • 高性能数据处理: 由 DuckDB 驱动,提供卓越的数据处理性能,能够高效处理大规模数据集。
  • • PB 级别数据可扩展性: 基于 3FS 构建,具备处理 PB (Petabyte) 级别数据的能力。
  • • 便捷的操作: 提供简单的操作,无需长时间运行的服务即可完成数据处理任务。
  • • 快速上手: Smallpond 提供了快速入门指南,用户可以轻松下载示例数据并开始使用 DuckDB SQL 进行数据处理。

3FS 与 Smallpond 的协同工作

Smallpond 框架巧妙地利用了 3FS 作为其底层存储引擎,充分发挥了 3FS 高性能、可扩展的特性。用户可以使用 Smallpond 轻松地在 3FS 上进行数据处理,例如执行 SQL 查询、数据转换和分析等操作。 GraySort 基准测试的例子也展示了 Smallpond 如何利用 3FS 的强大性能来处理大规模数据集排序任务

参考:

  • • 3FS: https://github.com/deepseek-ai/3FS
  • • Smallpond: https://github.com/deepseek-ai/smallpond

 




(文:AI寒武纪)

欢迎分享

发表评论