T-GRPO训练算法归档 - 每时AI

视频推理的R1时刻！港中文、清华推出首个Video-R1，7B模型竟超GPT-4o?

下午4时 2025/04/09 作者 PaperWeekly

港中文联合清华团队发布首个将强化学习范式应用于视频推理的模型Video-R1，该模型通过引入时序建模和混合训练机制，在权威测试中击败了GPT-4o。