DeepSeek最重要的三篇论文解读

中国人工智能初创企业DeepSeek(深度求索)正在以惊人的速度改写全球科技竞争格局。其最新推出的推理模型R1不仅性能卓越,与国际领先的OpenAI o1模型平分秋色,更以不到600万美元的训练成本震惊行业,这一数字仅为Meta大模型训练成本的十分之一。这一技术突破不仅在产业界掀起波澜,甚至引发了政治层面的关注。2025年初,美国总统特朗普在一场集会上直言不讳地表示,DeepSeek的崛起为美国产业界敲响了警钟,成为美国科技优势地位面临挑战的最新注脚。


DeepSeek的成功并非偶然。过去一年中,该公司连续发布了多篇具有划时代意义的学术论文,奠定了其技术领先地位。硅谷科技评论(SVTR)结合内部访谈和专家反馈,认为在DeepSeek的众多论文中,以下几篇被认为是最重要的,主要因为它们在技术创新和实际应用中有着重大突破:

  • DeepSeek-R1:通过强化学习提升大型语言模型的推理能力。2025年1月发布,提出了一种使用强化学习而非监督学习的方法,显著提升了语言模型在数学和逻辑推理任务中的表现,开辟了新的研究方向。

  • DeepSeek-V3:高效的混合专家模型。2024年12月发布,设计了一种高效的混合专家模型,通过激活少量参数实现性能和计算成本的平衡,是大规模模型优化的重要突破。

  • DeepSeek-LLM:以长期主义扩展开源语言模型。2024年1月发布,从长期主义视角提出开源语言模型发展策略,推动技术民主化。提出了社区驱动的开源治理框架和多任务优化方法。


文末阅读原文或者联系凯瑞(pkcapital2023),获取三篇论文原文。

一、DeepSeek-R1:通过强化学习提升大型语言模型的推理能力


《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》是一篇开创性的论文,专注于通过纯强化学习方法(而非传统的监督学习)来提升大型语言模型的推理能力。研究展示了模型在训练过程中通过强化学习表现出的“顿悟”现象,并显著提升了模型在数学和逻辑推理任务中的性能。以下是论文的详细解读:


背景与目标


近年来,大型语言模型(LLM)的推理能力成为人工智能研究的重要方向。然而,当前的许多方法依赖监督微调(SFT),这需要大量标注数据。论文提出了 DeepSeek-R1-Zero 和 DeepSeek-R1 两种新型模型,通过大规模强化学习(RL)方法提升推理能力,旨在减少对监督数据的依赖,探索纯强化学习对推理能力的优化潜力。


方法


  1. DeepSeek-R1-Zero:基于纯强化学习的推理能力提升

    • 强化学习算法: 使用 Group Relative Policy Optimization (GRPO),通过群体奖励优化策略模型。奖励设计包括准确性奖励(评估答案正确性)和格式奖励(引导模型按照指定格式输出推理过程)。

    • 自我演化与“灵光一现”现象: 模型通过 RL 自动学习复杂的推理行为,如自我验证和反思。随着训练过程的深入,模型逐步提升了复杂任务的解答能力,并在推理任务上显现突破性的性能提升。

  2. DeepSeek-R1:结合冷启动数据的多阶段训练

    • 冷启动数据的引入: 从零开始的 RL 容易导致初期性能不稳定,为此设计了包含高质量推理链的冷启动数据集。该数据提高了模型的可读性和训练初期的稳定性。

    • 推理导向的强化学习: 通过多轮 RL,进一步优化模型在数学、编程等推理密集型任务中的表现。

    • 监督微调与拒绝采样: 使用 RL 检查点生成额外的推理和非推理任务数据,进一步微调模型。

    • 全场景强化学习: 在最终阶段结合多种奖励信号,提升模型的有用性和安全性。

  3. 蒸馏:将推理能力传递至小模型。

  4. 将 DeepSeek-R1 的推理能力通过蒸馏技术传递至 Qwen 和 Llama 系列小型模型。蒸馏后的模型在多个基准任务中超越了部分开源大模型。


性能评估


  1. 推理任务

    • 在 AIME 2024、MATH-500 等数学任务中,DeepSeek-R1 达到 OpenAI-o1-1217 的性能水平。

    • 在编程任务(如 Codeforces 和 LiveCodeBench)上,表现优于大多数对比模型。

  2. 知识任务

    • 在 MMLU 和 GPQA Diamond 等多学科基准测试中,DeepSeek-R1 展现了卓越的知识推理能力。

    • 其中文任务表现(如 C-Eval)显著优于其他开源模型。

  3. 生成任务

  4. 在 AlpacaEval 和 ArenaHard 等开放式生成任务中,DeepSeek-R1 的胜率分别达到 87.6% 和 92.3%,展现了强大的文本生成能力。


结论与未来展望


  1. 关键发现

    • 通过强化学习,LLM 的推理能力可显著提升,即便无需监督数据。

    • 将推理能力蒸馏到小型模型中可以有效地提高计算效率,同时保持较高的性能。

  2. 局限性

    • 语言混合问题:模型在处理多语言任务时可能输出混合语言。

    • 提示敏感性:模型对 few-shot 提示不够鲁棒。

  3. 未来方向

    • 增强多语言支持,优化对中文以外语言的推理能力。

    • 研究大规模 RL 在软件工程任务中的应用。


二、DeepSeek-V3:高效的混合专家模型


《DeepSeek-V3: A Strong Mixture-of-Experts Language Model》 是一项关于混合专家(MoE)模型的研究,旨在通过激活少量专家网络实现高效计算,平衡模型性能和算力成本。该模型在多个复杂任务中表现出卓越的能力,同时显著降低了运行成本,为大模型的实际应用提供了新的思路。以下是论文 的解读:


背景与目标


随着大语言模型(LLM)的发展,DeepSeek-AI 团队提出了 DeepSeek-V3,一个拥有 6710 亿参数的混合专家(MoE)模型,每个 token 激活 370 亿参数。DeepSeek-V3 通过高效推理和经济成本的训练方法,旨在推动开源模型能力的极限,同时在性能上与闭源模型(如 GPT-4o 和 Claude-3.5)竞争。


核心技术与架构创新


  1. 多头潜在注意力(MLA

    • 使用低秩联合压缩方法减少注意力计算的缓存需求,同时保持多头注意力的性能。

    • 引入旋转位置嵌入(RoPE)提高推理精度。

  2. 混合专家架构(DeepSeekMoE)

    • 采用辅助损失优化的专家负载平衡策略,避免因负载不均导致的计算效率降低。

    • 引入“无辅助损失”的负载平衡新方法,通过动态调整路由偏差值,确保训练过程中的负载均衡。

  3. 多 Token 预测目标(MTP

    • 扩展模型在每个位置预测多个未来 token 的能力,提高训练数据效率。

    • 在推理阶段,MTP 模块可被重新用于推测解码,从而加速生成。


数据与训练效率


  1. 数据与预训练

    • 使用 14.8 万亿高质量多样化 token 数据进行训练。

    • 预训练过程非常稳定,未发生任何不可恢复的损失激增。

  2. 优化训练框架

    • 设计了 DualPipe 算法,通过前向和反向计算的重叠,显著减少通信开销。

    • 支持 FP8 混合精度训练,结合细粒度量化策略,显著降低内存使用和通信开销。

    • 训练效率极高,每训练万亿 token 仅需 18 万 H800 GPU 小时,总成本约 557.6 万美元。

  3. 长上下文扩展

  4. 支持最大上下文长度从 32K 扩展至 128K,使模型更适用于长文档处理。


后期优化与推理部署


  1. 监督微调(SFT)与强化学习RL

    • 通过 SFT 对齐模型输出与人类偏好。

    • 引入自适应奖励模型和 相对策略优化(GRPO),提升模型的推理能力。

  2. 推理与部署

    • 在 NVIDIA H800 GPU 集群上部署,结合高效的专家路由和负载均衡策略,实现低延迟的实时服务。

    • 使用冗余专家策略进一步优化推理阶段的负载平衡。


性能表现


  1. 知识任务

    • 在 MMLU 和 GPQA 等教育基准上,DeepSeek-V3 超越所有开源模型,并接近 GPT-4o 的性能。

    • 在中文事实性任务中表现尤为突出,领先大部分闭源模型。

  2. 代码与数学任务

    • 在数学基准(如 MATH-500)上实现开源模型的最佳表现。

    • 在编程任务(如 LiveCodeBench)中排名第一,展示了卓越的代码生成能力。

  3. 开放式生成任务

  4. 在开放式生成任务中,DeepSeek-V3 的胜率显著高于其他开源模型,并接近闭源模型的水平。


结论与未来方向


DeepSeek-V3 是目前最强的开源基础模型之一,特别是在代码、数学和长上下文任务上表现突出。未来计划包括:

  • 优化模型在多语言和多领域的泛化能力。

  • 探索更高效的硬件支持和训练方法。

三、DeepSeek-LLM:以长期主义扩展开源语言模型

2024年1月,DeepSeek大语言模型团队在《以长期主义扩展开源语言模型》 (LLM Scaling Open-Source Language Models with Longtermism)论文中提出从长期主义角度推动开源语言模型的发展,重点研究了大语言模型的规模效应。他们基于研究成果开发了DeepSeek Chat,并在此基础上不断升级迭代。以下是这篇论文解读:


背景与目标


近年来,大型语言模型(LLM)通过自监督预训练和指令微调,逐步成为实现通用人工智能(AGI)的核心工具。然而,LLM 的规模化训练存在挑战,尤其是在计算资源和数据分配策略上的权衡问题。DeepSeek LLM 的研究旨在通过深入分析模型规模化规律,推动开源大模型的长期发展。该项目探索了模型规模和数据分配的最优策略,并开发了性能超越 LLaMA-2 70B 的开源模型,尤其在代码、数学和推理领域表现卓越。


数据与预训练


  1. 数据处理

    • 处理了包含 2 万亿个 token 的双语数据集(中文和英文)。

    • 采取了去重、过滤和重新混合三阶段策略,以提高数据多样性和信息密度。

    • 使用 Byte-level Byte-Pair Encoding(BBPE)分词算法,词表大小设置为 102,400。

  2. 模型架构

    • 微观设计:借鉴 LLaMA 的架构,采用 RMSNorm 和 SwiGLU 激活函数,以及旋转位置编码。

    • 宏观设计:DeepSeek LLM 7B 具有 30 层,而 67B 增加至 95 层,并通过深度扩展优化性能。

  3. 超参数优化

    • 引入多阶段学习率调度器,优化训练过程并支持持续训练。

    • 使用 AdamW 优化器,并对学习率、批次大小等关键超参数进行了规模化规律研究。

  4. 基础设施

  5. 开发了高效轻量化的训练框架 HAI-LLM,集成了数据并行、张量并行等技术,显著提升硬件利用率。


模型规模化规律


  1. 超参数规模化规律

    • 通过实验发现,随着计算预算增加,最佳批次大小随之增大,而学习率则逐渐降低。

    • 提出了经验公式,以更准确地预测不同规模模型的超参数。

  2. 模型与数据规模分配策略

    • 引入了非嵌入 FLOPs/token(MMM)作为模型规模的度量方式,替代传统的参数数量表示,显著提高了计算预算分配的精确性。

    • 实验表明,高质量数据允许更多的预算分配到模型规模扩展上,从而提升性能。

对齐与微调


  1. 监督微调(SFT

    • 收集了 150 万条指令数据,包括通用语言任务、数学问题和代码练习。

    • 在微调中,通过两阶段策略降低了模型的重复生成率,同时保持了基准性能。

  2. 直接偏好优化(DPO

  3. 使用多语言提示生成偏好数据,通过优化模型对开放式问题的生成能力显著增强。


性能评估


  1. 公共基准测试

    • 数学和代码:DeepSeek LLM 67B 在 HumanEval 和 GSM8K 上显著优于 GPT-3.5 和 LLaMA-2 70B。

    • 中文任务:在 C-Eval、CMath 等基准上,DeepSeek 表现出色,尤其在中文成语填空(CHID)等文化任务中远超 LLaMA-2。

  2. 开放式生成能力

    • 在 AlignBench 中文测试中,DeepSeek 67B Chat 在逻辑推理和文本生成等任务上表现接近 GPT-4。

    • 英文测试中,DeepSeek 67B Chat 在多轮对话生成能力上超越大多数开源模型。

  3. 安全评估

  4. 专业团队设计了覆盖多种安全问题的测试集,DeepSeek 在歧视偏见、合法权益和违法行为等多方面均展现出高安全性。


结论与未来方向


论文总结了 DeepSeek LLM 在开源大模型规模化领域的突破,包括:

  • 提出了更精确的模型规模与数据分配策略。

  • 在多个领域的任务中实现性能领先,尤其在数学、代码和中文任务上表现出色。 未来将继续优化高质量数据的利用,并探索更广泛的安全性和对齐技术。

硅谷科技评论(SVTR.AI),在ChatGPT问世之际,创立于美国硅谷,依托#AI创投库、#AI创投会、#AI创投营 和风险投资,打造全球前沿科技(AI)创新生态系统。联系凯瑞(pkcapital2023),加入我们,共创未来。点击文末阅读原文,访问SVTR.AI,发现更多机会与内容

Startup



+



11x.ai:AI虚拟销售员,半年内突破200万美元
AlphaSense,金融界的“谷歌”
AMP Robotics,如何用AI拯救垃圾场?
Anduril Industries:AI 重新定义现代战争与和平
Anthropic:OpenAI”宫斗”背后的公司
Bardeen:让AI代理更稳更快
Brightwave,AI驱动的投研助手

Calendly:日程安排助手,AI效率工具鼻祖

Canva:从Adobe、Figma、Canva 到 OpenAI

Carta:想要取代纽交所的股权管理工具
Cerebras,打造世界最大芯片挑战AI霸主英伟达

Cohere:为企业提供大模型

Consensus:用AI解锁学术

CoreWeave:GPU租赁独角兽,英伟达的好盟友

Databricks:从数据湖到大模型人工智能战略
DeepL:从机器翻译到AI写作的语言沟通利器
Discord:腾讯多次押注,打造属于你自己的线上互动社区
DoNotPay:世界首款AI机器人律师

Duolingo:如何改写语言学习

E2B:为 AI 代理构建自动化云平台
Figma从Adobe、Figma、Canva 到 OpenAI
Figure,从体力劳动中解放全人类

Glean:重塑知识工作的未来

Grammarly:从论文查重到AI写作的沟通利器
Helion,AI的终极能源梦想
Hippocratic AI,用AI缓解全球医护人员短缺
Hugging Face:开源AI的未来
Jenni AI:如何通过AI写作实现年入千万
Letta:AI代理技术栈市场地图
Marblism:一句AI提示词自动生成各类软件
Midjourney:0融资,11人,$1亿收入
Mistral,欧洲大模型,性价比之王
MultiOn,用人工智能代理给软件装上大脑
Neuralink:让失明者重见光明,让瘫患者再次行走,让人类与AI融合永生
OpenAI:人工智能突破的前沿员工董事会丨营销丨GPT Store丨奥特曼马斯克微软产品生态
Pika:AI视频的未来
Rad AI:如何用 AI 改变医疗保健
Reddit:奥特曼押注基于兴趣社交的美版“贴吧”
Replicate:1人AI公司背后的幕后英雄
Replite:教马斯克的儿子如何写代码
Rows:一年内用户增长20倍背后的故事
Perplexity:挑战谷歌,站在AI搜索最前沿
RunwayAI视频的未来
Scale AI:如何成为数字世界的“水源”
Shein:打造下一个“中国首富”
Skild AI,打造通用机器人“大脑

SpaceX:梦想照进现实,人类星际生命的曙光

Stability AI:SD 背后的公司和创始人
Stripe:马斯克和奥特曼押注的支付王者
Substack:美版公众号,为价值付费

Superhuman:邮件超人,拥抱 AI

Telegram,俄罗斯兄弟的密聊纸飞机
Vannevar Labs:AI+国防,军事人工智能掘金者
Vercel,如何用AI引领技术开发?
Zapier:ChatGPT最受欢迎插件的过去和未来
People(找人
如何找到创业合伙人如何聘请CEO如何确定CEO的薪水如何分配股权和头衔如何组建和召开董事会选择自己的创业导师 找这种人实现快速裂变如何找到那个“改变命运”的第一位员工?
Funding(找钱
如何写商业计划书初创公司估值如何做电梯演讲如何确认真实投资意愿如何选择VC早期融资的“科学”与策略初创公司的融资生存法则风险投资人最关心的一个指标“七条法则”让投资人主动“敲门”
Vision(找方向)
性格决定创业成败如何成为亿万富翁如何做出困难的决定如何寻找创业方向如何在海外启动新产品GTM指南不要像投资人那样思考创始人与市场契合度为什么初创公司会失败什么决定创业成败如何建立社交媒体形象PMF决定初创的未来创始人的必读书单 5 点创业洞见如何做增长
AI创业
如何打造AI驱动的公司AI创业如何选赛道如何打造AI软件产品AI公司要不要融资AI初创公司商业模式AI原生公司定价策略AI初创公司增长策略2B还是2C

Venture



+



A16Z:全球AI产品Top100人工智能到底能做什么丨AI将会拯救世界
Air Street Capital:State of AI(2024)
Alphabet谷歌战投:全球最牛AI战投是如何炼成的人工智能战略
Altimeter:谁是AI C端赢家
Amazon:人工智能战略
Apple:产品收入变迁 AI 并购之王
Battery Ventures:AI正推动云计算的下一波增长AI正带来 4 万亿美元市场机会
Bessemer Venture Partners:Cloud 100(2024)如何打造AI核心竞争力
Bond:AI将改变教育和教学方法
Coatue:AI革命AI是超级周期的开始
Cowboy:AI大势所趋
Daniel Gross:硅谷90后AI投资人
Dawn Capital:如何通过人工智能增强人脉
Elad Gil:关于人工智能我所不知道的事情
Emergence:生成式 AI 六大最新趋势
FirstMark:MAD 24问,AI 2023年总结,2024年展望
Forerunner:超个性化和动态交互才是未来
Foundation Capital:服务即软件的万亿机会
Founders Fund:如何投出下一个独角兽彼得·泰尔泰尔研究员
General Catalyst:AI+医疗支持者
ICONIQ:小扎的朋友圈AI成为大企业战略核心
Insight Partners:AI应用将如何实现人机协同AI Agent正在颠覆自动化
Lightspeed:AI+法律市场机会地图
M12(微软):如何抢占AI投资制高点收入拆解
Menlo Ventures:2024企业Gen AI现状报告AI代理全面崛起Gen AI 应用拐点已到AI+安全市场地图企业AI架构的设计原则
NVIDIA:收入按产品线拆解AI投资策略
Sam Altman(山姆·奥特曼):如何做早期投资丨地产生意投资帝国婚礼阅读清单
Sapphire:AI原生应用AI进入调整期AI 行研 丨 销售人工智能如何重塑 GTM
Scale Venture Partners:如何用AI工具解决硬件难题?
Sequoia(红杉资本):如何做投资代理型AI应用崛起生成式AI进入第二阶段
Sierra Ventures:垂直场景将是最大的创业机会
SOSV: 从草根到帝国
TRAC:风投界的水晶球
Thrive Capital:高位接盘OpenAI
Union Square Ventures(USV)
Wing Venture Capital:2024年企业科技 30 强(ET 30)
YC:全球排名第一的AI投资机构给年轻创始人建议如何独立思考YC与A16Z的押注有何异同
20VC:从播客主持人到风投大佬
LP

精品基金/超级基金AI驱动VC通才/专才风投人VC/PE孵化器加速器初创工作室如何发掘下一个伟大的投资人

GP
如何及早识别独角兽如何避免7大投资陷阱合伙人是怎么炼成的Souring的艺术颜值如何影响VC决策如何快速解读对方性格硅谷投资人的武器库如何用数据控制初创公司团队风险什么决定创业成败
AI投资
如何评估AI初创公司海外投资人谈AI新趋势应该关注哪些AI公司AI 创投七大新趋势全球AI创投生态全球AI投资机构Top10

Technology



+



AI工程师有多强?3天上线全球首个AI数库
“AI张雪峰”诞生,北大团队用 AI 重塑教育咨询
1人团队,百万营收的AI套壳
2024 年必读人工智能书单
加密信条:数字货币的前世、今生和未来
内容创作指南,如何通过写作赚钱?
传统公司如何抓住AI浪潮?
全球七大科技巨头的 4000 亿美元 AI 战略布局
全球 Gen AI 独角兽大盘点,中国4家大模型上榜
AI大模型:海外 数学 性价比 编程 医疗 评估 训练成本 | 小模型
AI 创始人 华裔创始人 北美科技人才中心地图职业经历教育背景斯坦福普林斯顿丨多伦多大学
AI 公司地理和行业分布 以色列 德国 旧金山湾区 欧洲法国
福布斯AI 50 斯坦福AI指数 企业科技AI 30 高增长AI 50 | C端AI 50 | 工具AI 50 | SVTR AI 100 | 自力更生AI 25丨2024年全球最具价值独角兽丨Gen AI专利公司 Top20丨开源 AI 初创公司 Top 75丨开源 AI 开发者工具 Top 20丨全球数据中心按功耗排名 Top 50
AI代理:创始人该如何站上3000亿美元的风口?
AI+国防安防:如何重新定义现代战场的核心竞争力
AI+人力资源:用科技重塑就业与招聘的未来
AI+搜索:全球新锐公司谁能杀出重围?
AI+社交:该怎么玩?
AI+编程:公司排行榜市场地图丨AI工程师SaaS的新曙光
AI+金融:如何缔造下一个金融科技传奇大模型在金融投资领域的应用AI将如何改变会计
AI+游戏:市场研究报告初创公司Top 10
AI+机器人
AI+医疗:市场地图心理/精神公司
AI+教育:市场地图
AI+客服:市场地图
AI+法律:市场地图
AI+视频:市场地图3D视频
AI+生产力工具市场地图
AI+科研

Review



+


001 002 003 004 005 006 007 008 009 010
011 012 013 014 015 016 017 018 019 020
021 022 023 024 025 026 027 028 029 030
031 032 033 034 035 036 037 038 039 040
041 042 043 044 045 046 047 048
049
050 
051 052 
053
054 
055
056
057
058
059
060
061
062 
063 
064
065 066
067
068 069 070
071  072 073 074 075 076 077 078 079 080
081 082 083 084 085 086 087 088 089

(文:硅谷科技评论)

欢迎分享

发表评论