DeepSeek-R1 解读及技术报告中文版

MLNLP社区致力于促进国内外机器学习与自然语言处理领域的交流合作。最新研究成果《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》通过纯强化学习实现了模型推理能力的自主进化,并结合蒸馏技术实现高效迁移,显著提升了多项任务表现。

DeepSeek今日连开3源!针对优化的并行策略,梁文锋本人参与开发

DeepSeek开源周第四天发布三项优化并行策略的技术成果,包括DualPipe、EPLB和Profiling Data。DualPipe是一种双向流水线并行算法,旨在减少计算与通信阶段的气泡;EPLB是MoE模型负载均衡器,确保计算资源平衡利用;Profiling Data提供了实际应用中的效果数据可视化支持。

DeepSeek开源第三弹:惊人的300行代码驱动R1和V3的训练与推理,超越各种专家内核

DeepSeek-AI 发布了 DeepGEMM 库,专为 Hopper GPU 架构的 FP8 矩阵乘法加速。其性能高达 1350+ TFLOPS,代码简洁至仅 300 行。该库支持稠密模型和混合专家模型,并通过多种技术实现高效优化,提供详细实测数据及安装指南。