跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

多阶段训练

谈谈对DeepSeek-R1的一些理解

2025年1月23日23时 作者 极市干货

↑ 点击
蓝字
关注极市平台
作者丨猛猿
来源丨大猿搬砖简记
编辑丨极市平台
极市导读
探讨Deep

分类 学术 标签 few_shot、 prompt、 RL、 SFT、 多阶段训练、 蒸馏技术 1 条评论

73页,开源「后训练」全流程!AI2发布高质量Tülu 3系列模型,拉平闭源差距,比肩GPT-4o mini

2024年12月10日16时 作者 新智元

新智元报道
编辑:LRS
【新智元导读】
Allen Institute for AI(AI2)发布

分类 资讯 标签 OLMES、 TULU-3、 可验证奖励强化学习、 多阶段训练、 直接偏好优化、 阿里云 发表评论

2025年 AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Manus Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
  • 国产视频大模型霸榜!MiniMax 发布 Hailuo 02,性能超谷歌 Veo3,特效炸裂
  • 字节出品: ComfyUI 批量跑图插件
  • 整合多源植物转录组数据,山东理工大学等构建PlantLncBoost模型,跨物种lncRNA预测准确率最高达96%
  • Labubu换装记!让视频换装变得如此简单!基于扩散Transformer的视频虚拟试衣新突破
  • 「帕西尼机器人」完成新一轮 A 系列数亿元融资

2025 年 6 月
一 二 三 四 五 六 日
 1
2345678
9101112131415
16171819202122
23242526272829
30  
« 5 月    

归档

  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×