DeepSeek开源第五弹：3FS & Smallpond 颠覆性数据处理神器登场，PB级数据轻松处理

刚刚 DeepSeek开源周最后一个开源日推出数据处理神器：Fire-Flyer File System (3FS) 和 Smallpond， 6.6 TiB/s 聚合吞吐，PB级数据轻松处理

给大家简单划个重点

3FS：高性能分布式文件系统

3FS 是 “所有 DeepSeek 数据访问的动力引擎 (Thruster)”。 Fire-Flyer File System (3FS) 是一款高性能分布式文件系统，它充分利用了现代 SSD 固态硬盘和 RDMA (远程直接内存访问) 网络的强大带宽，为 AI 工作负载提供了卓越的存储基础设施

3FS 的核心特性和优势包括：

卓越的性能：

• 在一个由 180 个节点组成的集群上，实现了6.6 TiB/s 的聚合读取吞吐量
• 在 25 节点的集群上，GraySort 基准测试中达到了3.66 TiB/min 的吞吐量
• 每个客户端节点在 KVCache 查询中实现了超过 40 GiB/s 的峰值吞吐量

解耦架构与强一致性： 采用解耦架构，结合数千个 SSD 的吞吐量和数百个存储节点的网络带宽，使应用程序能够以与数据位置无关的方式访问存储资源。同时，通过实现带有分配查询的链式复制 (CRAQ) 来保证 强一致性，简化了应用程序代码并使其易于理解。

标准文件接口： 采用无状态元数据服务，并由事务性键值存储 (例如 FoundationDB) 支持，提供了通用的文件接口，无需开发者学习新的存储 API。

多样化的工作负载支持： 能够高效地处理各种 AI 工作负载，包括：

• 训练数据预处理
• 数据集加载
• 检查点保存和重新加载
• 嵌入向量搜索
• V3/R1 推理中的 KVCache 查询
• 数据准备: 有效地组织数据分析管道的输出到分层目录结构中，并管理大量的中间输出。
• 数据加载器: 消除预取或洗牌数据集的需求，支持跨计算节点随机访问训练样本。
• 检查点: 支持大规模训练的高吞吐量并行检查点。
• KVCache 推理缓存: 为推理提供经济高效的 DRAM 缓存替代方案，提供高吞吐量和更大的容量。

Smallpond：轻量级数据处理框架

Smallpond 是一款构建于 DuckDB 和 3FS 之上的轻量级数据处理框架。它旨在简化在 3FS 上进行数据处理的流程，并充分利用 DuckDB 的高性能分析能力

Smallpond 的主要特点包括：

• 轻量级和易用性： 提供简洁的 API 和易于理解的工作流程，方便用户快速上手。
• 高性能数据处理： 由 DuckDB 驱动，提供卓越的数据处理性能，能够高效处理大规模数据集。
• PB 级别数据可扩展性： 基于 3FS 构建，具备处理 PB (Petabyte) 级别数据的能力。
• 便捷的操作： 提供简单的操作，无需长时间运行的服务即可完成数据处理任务。
• 快速上手： Smallpond 提供了快速入门指南，用户可以轻松下载示例数据并开始使用 DuckDB SQL 进行数据处理。

3FS 与 Smallpond 的协同工作

Smallpond 框架巧妙地利用了 3FS 作为其底层存储引擎，充分发挥了 3FS 高性能、可扩展的特性。用户可以使用 Smallpond 轻松地在 3FS 上进行数据处理，例如执行 SQL 查询、数据转换和分析等操作。 GraySort 基准测试的例子也展示了 Smallpond 如何利用 3FS 的强大性能来处理大规模数据集排序任务

参考：

• 3FS: https://github.com/deepseek-ai/3FS
• Smallpond: https://github.com/deepseek-ai/smallpond

⭐

（文：AI寒武纪）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

3FS：高性能分布式文件系统

Smallpond：轻量级数据处理框架

3FS 与 Smallpond 的协同工作

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复