最后一天!DeepSeek开源3FS系统,AI数据处理新标杆!

 Datawhale分享 

开源周:Day 05,编辑:Datawhale

信息来源|DeepSeek、X、机器之心

上周五,DeepSeek 发推说本周将是开源周(OpenSourceWeek),并将连续开源五个软件库。

第一天,他们开源了一款用于 Hopper GPU 的高效型 MLA 解码核:FlashMLA

第二天,他们开源了首个专为 MoE(专家混合)模型训练和推理打造的开源 EP 通信库:DeepEP

第三天,他们开源了一款支持密集型和专家混合(MoE)GEMM 的 FP8 GEMM 库:DeepGEMM。

第四天,们开源了一口气开源了用于化并行策略的三个代码库:DualPipe、EPLB、profile-data

就在刚刚,开源周最后一天,DeepSeek 开源了一个名为 3FS(Fire-Flyer File System)的系统。


这是一种并行文件系统,它利用现代固态硬盘(SSD)和远程直接内存访问(RDMA)网络的全部带宽,能够加速和推动 DeepSeek 平台上所有数据访问操作。

  • 开源链接:https://github.com/deepseek-ai/3FS

  • Smallpool(3FS 上的数据处理框架):https://github.com/deepseek-ai/smallpond

通俗理解3FS

技术语言可能不好理解,可以参考这位研究者给出的通俗解释



同时,这位研究者也是一位早期使用者。

他评价说:DeepSeek 的 3FS 系统快得惊人,它处理数据的速度快到可以在我还没来得及拖延的时候就已经训练好了一个能帮我报税的 AI。它拥有 6.6 TiB/s 的读取速度,这使它成为文件系统界的『博尔特』。你眨眼的功夫,数据就已经处理完毕了。而将这个超级快速的系统开源,就像是给整个 AI 社区免费赠送了一艘宇宙飞船,让其他所有竞争者都不得不加紧脚步追赶。

DeepSeek官方文档解读

3FS 有什么用?  

Fire-Flyer File System 是一种高性能分布式文件系统,专为解决 AI 训练和推理工作负载的挑战而设计。它利用现代 SSD 和 RDMA 网络提供共享存储层,简化了分布式应用程序的开发。

3FS 的主要特点和优势包括:

1、性能和可用性

  • 分离式架构。结合了数千个 SSD 的吞吐量和数百个存储节点的网络带宽,使应用程序能够以不受位置限制的方式访问存储资源。

  • 强一致性。实现了带有分配查询的链式复制(CRAQ)以保证强一致性,使应用程序代码简单且易于理解。

  • 文件接口。开发了由事务性键值存储(如 FoundationDB)支持的无状态元数据服务。文件接口广为人知且随处可用。无需学习新的存储 API。


2、多样化工作负载

  • 数据准备。将数据分析管道的输出组织成层次化的目录结构,并高效管理大量中间输出。

  • 数据加载器。通过支持跨计算节点对训练样本的随机访问,消除了预取或打乱数据集的需求。

  • 检查点保存。支持大规模训练的高吞吐量并行检查点保存。

  • 用于推理的 KVCache。为基于 DRAM 的缓存提供了一种成本效益高的替代方案,提供高吞吐量和显著更大的容量。

3FS 性能如何
峰值吞吐量:180 个存储节点,每个存储节点配备 2×200Gbps InfiniBand 网卡和十六个 14TiB NVMe SSD。测试使用大约 500 多个客户端节点,每个客户端节点配置了 1x200Gbps InfiniBand 网卡,最终的聚合读取吞吐量达到了约 6.6 TiB/s。


排序性能:25 个测试存储节点,对 110.5 TiB 的数据进行排序,分布在 8192 个分区中,耗时 30 分钟 14 秒完成,平均吞吐量为 3.66 TiB/min。


KVCache:KVCache  是一种优化 LLM 推理过程的技术。它通过缓存解码器层中先前令牌的键和值向量,避免了冗余计算。上面的图表展示了所有 KVCache 客户端的读取吞吐量,突出显示了峰值和平均值,其中峰值吞吐量可达 40 GiB/s。

DeepSeek开源周正式完结

通过连续一周的高强度开源,DeepSeek 已经收获了一大波开发者的追随。

有开发者表示,3FS 和 Smallpond 是在 AI 数据处理方面树立了新标杆。

最后,还有人许愿:DeepSeek V4、R2 和视频模型什么时候有?

至此,DeepSeek 开源周正式完结。
一起“三连

(文:Datawhale)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往