视频推理的R1时刻!港中文、清华推出首个Video-R1,7B模型竟超GPT-4o?
港中文联合清华团队发布首个将强化学习范式应用于视频推理的模型Video-R1,该模型通过引入时序建模和混合训练机制,在权威测试中击败了GPT-4o。
港中文联合清华团队发布首个将强化学习范式应用于视频推理的模型Video-R1,该模型通过引入时序建模和混合训练机制,在权威测试中击败了GPT-4o。
清华大学等团队提出4D LangSplat方法,结合多模态大模型和状态变化网络,成功重建动态语义场并实现高效精准的开放文本查询任务。该方法在多项评估指标上优于现有技术。