冷启动数据归档

北航推出全开源TinyLLaVA-Video-R1，小尺寸模型在通用视频问答数据上也能复现Aha Moment！

下午11时 2025/04/25 作者机器之心

北京航空航天大学推出小尺寸视频推理模型TinyLLaVA-Video-R1，其在通用问答数据集上进行强化学习效果显著。该工作引入人工标注的冷启动数据、长度奖励与答案错误惩罚，并为优势计算引入微小噪声，验证了小尺寸模型在视频推理中的潜力。

下午4时 2025/03/08 作者 AI前线

智能稳步发展过程中最新的一记强音。对于 ML 研发社区来说，这是一个颇为重要的版本，原因包括：
它是

下午2时 2025/02/09 作者老刘说NLP

因素，我们可以来看看其中一些关于数据方面的一些问题。
当然，社区也有了一些对应的测试，所以有个讨论，

下午4时 2025/01/21 作者新智元

中国版o1 DeepSeek R1通过大规模强化学习训练，在多项任务中与OpenAI o1打成平手，展示了不依赖监督微调数据也能显著提升推理能力的潜力。

下午12时 2025/01/21 作者每日AI新工具

本文介绍了DeepSeek-R1推理模型、GitAgent代码智能助手、mini_qwen小型语言模型、AI ContentCraft多功能内容创作工具以及Story-Adapter无训练长篇故事可视化框架。