强化学习归档 - 第17页共26页

解码DeepSeek创新之道：三代模型演进路线图

下午11时 2025/02/09 作者智东西

模型：
DeepSeek-LLM（V1）完善了全栈框架，主要follow LLaMA；
DeepSe

下午12时 2025/02/09 作者量子位

研究团队通过对比SFT和RL两种方法发现，长CoT的生成需要大量的计算资源。他们提出了四个关键发现：SFT并非必需但能简化训练并提高效率；推理能力随着训练计算增加而出现，但并非总是如此；可验证奖励函数对增长CoT至关重要；基模型中的错误修正等技能需要通过RL有效地激励。

下午12时 2025/02/09 作者 Z Potentials

DeepSeek仅用600万美元训练出强大AI模型引起广泛关注，但其真正的价值在于推动技术发展。文章指出，美国的大型AI实验室应将AI的安全研究和开发作为优先事项，强调迈向AGI（通用人工智能）才是关键目标。

下午11时 2025/02/08 作者新智元

ek-R1-Zero的「顿悟时刻」，可能并不存在。类似复现实验中之所以出现响应变长现象，或许只是因为

下午12时 2025/02/08 作者机器之心

AIxiv专栏介绍及其新成果HugWBC控制器，支持机器人同时掌握多种步态及精细调整行为指令，提高运动控制能力。该研究成果在模拟环境中训练，并通过评估验证其有效性。

上午8时 2025/02/08 作者 NLP工程化

Oat-Zero项目深入剖析AI模型的自我反思行为，并通过强化学习优化其推理能力，提供完整的实验复现步骤。

上午8时 2025/02/08 作者 NLP工程化

R1-Computer-Use利用Deepseek R1的强化学习技术优化计算机使用场景中的AI行为，支持文件操作、命令行交互等多种任务。

下午11时 2025/02/07 作者新智元

I！V3的Star数，如今已经碾压OpenAI最热门的项目。机器学习大神的一篇硬核博文，直接帮我们揭