北航推出全开源TinyLLaVA-Video-R1,小尺寸模型在通用视频问答数据上也能复现Aha Moment!
北京航空航天大学推出小尺寸视频推理模型TinyLLaVA-Video-R1,其在通用问答数据集上进行强化学习效果显著。该工作引入人工标注的冷启动数据、长度奖励与答案错误惩罚,并为优势计算引入微小噪声,验证了小尺寸模型在视频推理中的潜力。
北京航空航天大学推出小尺寸视频推理模型TinyLLaVA-Video-R1,其在通用问答数据集上进行强化学习效果显著。该工作引入人工标注的冷启动数据、长度奖励与答案错误惩罚,并为优势计算引入微小噪声,验证了小尺寸模型在视频推理中的潜力。
中国版o1 DeepSeek R1通过大规模强化学习训练,在多项任务中与OpenAI o1打成平手,展示了不依赖监督微调数据也能显著提升推理能力的潜力。
本文介绍了DeepSeek-R1推理模型、GitAgent代码智能助手、mini_qwen小型语言模型、AI ContentCraft多功能内容创作工具以及Story-Adapter无训练长篇故事可视化框架。