3B逆袭7B巨头!Video-XL-Pro登顶长视频理解SOTA,单卡万帧准确率超98%
上海交通大学、北京智源研究院和特伦托大学的研究团队推出了一种新的超长视频理解大模型Video-XL-Pro,该模型通过创新的重构式令牌压缩技术实现了近一万帧视频的单卡处理,并在多个基准测试中超越了此前发布的大型模型。
上海交通大学、北京智源研究院和特伦托大学的研究团队推出了一种新的超长视频理解大模型Video-XL-Pro,该模型通过创新的重构式令牌压缩技术实现了近一万帧视频的单卡处理,并在多个基准测试中超越了此前发布的大型模型。
本文提出Entropy Minimized Policy Optimization (EMPO)方法,旨在实现完全无监督条件下大模型推理能力的提升。该方法不需要监督微调或人工标注的答案,仅通过强化学习训练从基模型中获得策略,并利用语义相似性聚类生成的多个回答作为奖励信号,从而在数学及其他通用推理任务上取得显著性能提升。
Meta CRAG-MM Challenge 2025面向可穿戴设备场景设计,旨在提升视觉问答基准数据集的准确性、上下文理解和实时信息处理能力。通过三个逐层递进的任务全面考察多模态检索增强生成(MM-RAG)系统在现实中的应用。
在英伟达、Lambda Labs 及 Turing.AI 联合举办的 Data Filtering Challenge 中,参赛者需设计数据过滤技术优化数据集,并提升边缘设备上的小语言模型表现。比赛提供免费 GPU 计算资源及丰厚奖金。
本文首次系统性地研究并提出了高效建模长上下文视频生成的方法,通过重构视频生成任务为逐帧预测,并引入长短时上下文的非对称patchify策略和多层KV Cache机制,实现了高效的长视频训练与长上下文视频生成。