750城市+5000小时第一人称视频,上海AI Lab开源面向世界探索高质量视频数据集

上海人工智能实验室等机构联合推出Sekai项目,收集全球超过5000小时第一人称行走与无人机视角真实世界或游戏视频数据集,用于交互式视频生成、视觉导航和视频理解。

突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%

上海人工智能实验室联合新加坡国立大学、香港大学等机构的研究团队提出OWMM-Agent,首个专为开放世界移动操作设计的多模态智能体。通过仿真器合成数据微调大模型,在真实环境中实现零样本单步动作预测90%的准确率。

DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究

该研究比较了DPO和GRPO在自回归图像生成中的应用效果,发现DPO在域内任务上表现更好,而GRPO在域外泛化能力上更出色。研究还探讨了不同奖励模型及扩展策略对这两种算法的影响。

10×加速!DCM显著提升视频扩散模型推理效率!HunyuanVideo13B推理时间从1500秒缩短至120秒!

本文提出了一种双专家一致性模型DCM来解决视频生成中的一致性蒸馏问题,通过解耦语义合成与细节精修,显著减少采样步数的同时保持了较高的视觉质量。

不用千亿参数也能合成高质量数据!这个开源框架让小模型“组团逆袭”,7B性能直追72B

上海人工智能实验室与中国人民大学提出GRA框架,通过多人协作机制让小模型协同生成高质量训练数据,其生成的数据质量媲美甚至优于单个大型语言模型。

ICML 2025 Agentic时代唤醒NAS”第二春”!智能体超网动态组队,推理成本暴降55%

大语言模型驱动的多智能体系统在构建时面临手动设计和调试的瓶颈。新加坡国立大学等团队推出MaAS框架,利用智能体超网技术实现按需定制的动态智能体服务,提高效率并降低成本。

类R1训练不再只看结果对错!港中文推出SophiaVL-R1模型

SophiaVL-R1 是一项基于类 R1 强化学习训练框架的新模型,它不仅奖励结果的准确性,还考虑了推理过程的质量。通过引入思考奖励机制和 Trust-GRPO 训练算法,SophiaVL-R1 提升了模型的推理质量和泛化能力,在多模态数学和通用测试数据集上表现优于大型模型。

告别O(n²)!上海AI Lab开源Linear-MoE:线性注意力+MoE的终极缝合术

近期研究表明,线性序列建模(如 Lightning Attention、Mamba2)与混合专家模型架构(MoE)的结合在高效大模型领域引起了广泛关注。上海人工智能实验室团队的最新研究首次系统地实现了这两种技术的结合,并开源了完整的技术框架。