
刚刚 DeepSeek开源周最后一个开源日推出数据处理神器:Fire-Flyer File System (3FS) 和 Smallpond, 6.6 TiB/s 聚合吞吐,PB级 数据轻松处理
给大家简单划个重点
3FS:高性能分布式文件系统
3FS 是 “所有 DeepSeek 数据访问的动力引擎 (Thruster)”。 Fire-Flyer File System (3FS) 是一款高性能分布式文件系统,它充分利用了现代 SSD 固态硬盘和 RDMA (远程直接内存访问) 网络的强大带宽,为 AI 工作负载提供了卓越的存储基础设施

3FS 的核心特性和优势包括:
卓越的性能:
-
• 在一个由 180 个节点组成的集群上,实现了6.6 TiB/s 的聚合读取吞吐量 -
• 在 25 节点的集群上,GraySort 基准测试中达到了3.66 TiB/min 的吞吐量 -
• 每个客户端节点在 KVCache 查询中实现了超过 40 GiB/s 的峰值吞吐量
解耦架构与强一致性: 采用解耦架构,结合数千个 SSD 的吞吐量和数百个存储节点的网络带宽,使应用程序能够以与数据位置无关的方式访问存储资源。同时,通过实现带有分配查询的链式复制 (CRAQ) 来保证 强一致性,简化了应用程序代码并使其易于理解。
标准文件接口: 采用无状态元数据服务,并由事务性键值存储 (例如 FoundationDB) 支持,提供了通用的文件接口,无需开发者学习新的存储 API。
多样化的工作负载支持: 能够高效地处理各种 AI 工作负载,包括:
-
• 训练数据预处理 -
• 数据集加载 -
• 检查点保存和重新加载 -
• 嵌入向量搜索 -
• V3/R1 推理中的 KVCache 查询 -
• 数据准备: 有效地组织数据分析管道的输出到分层目录结构中,并管理大量的中间输出。 -
• 数据加载器: 消除预取或洗牌数据集的需求,支持跨计算节点随机访问训练样本。 -
• 检查点: 支持大规模训练的高吞吐量并行检查点。 -
• KVCache 推理缓存: 为推理提供经济高效的 DRAM 缓存替代方案,提供高吞吐量和更大的容量。
Smallpond:轻量级数据处理框架
Smallpond 是一款构建于 DuckDB 和 3FS 之上的轻量级数据处理框架。它旨在简化在 3FS 上进行数据处理的流程,并充分利用 DuckDB 的高性能分析能力

Smallpond 的主要特点包括:
-
• 轻量级和易用性: 提供简洁的 API 和易于理解的工作流程,方便用户快速上手。 -
• 高性能数据处理: 由 DuckDB 驱动,提供卓越的数据处理性能,能够高效处理大规模数据集。 -
• PB 级别数据可扩展性: 基于 3FS 构建,具备处理 PB (Petabyte) 级别数据的能力。 -
• 便捷的操作: 提供简单的操作,无需长时间运行的服务即可完成数据处理任务。 -
• 快速上手: Smallpond 提供了快速入门指南,用户可以轻松下载示例数据并开始使用 DuckDB SQL 进行数据处理。
3FS 与 Smallpond 的协同工作
Smallpond 框架巧妙地利用了 3FS 作为其底层存储引擎,充分发挥了 3FS 高性能、可扩展的特性。用户可以使用 Smallpond 轻松地在 3FS 上进行数据处理,例如执行 SQL 查询、数据转换和分析等操作。 GraySort 基准测试的例子也展示了 Smallpond 如何利用 3FS 的强大性能来处理大规模数据集排序任务
参考:
-
• 3FS: https://github.com/deepseek-ai/3FS -
• Smallpond: https://github.com/deepseek-ai/smallpond
⭐
(文:AI寒武纪)