CVPR 2025 Highlight|北大联手智元发布首个基于说明书的家电操作评测基准

北京大学联合智元机器人团队提出CheckManual评测框架,专注于研究基于说明书的家电操作。该框架包含1107份不同内容的家电说明书,涵盖2211个可操作部位和1464个操作任务。通过OCR、多模态大模型解析说明文字及视觉信息,提出ManualPlan模型进行详细的操作规划,并实现与家用电器的真实交互。

视频理解“隐秘的角落”:多任务视频文本理解评测新基准VidText发布

VidText 提出了一套全面的视频文本理解基准,覆盖 27 个真实场景和多种语言。它包含从视觉感知到跨模态推理的多个任务,评估模型在不同粒度上的表现,并揭示了影响性能的关键因素。

每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率

近日,微软研究院与北京大学联合发布的新框架Next-Frame Diffusion(NFD)实现了每秒超过30帧的视频生成速度,并保持高质量画面。相比现有自回归视频生成模型,NFD采用帧内双向注意力和帧间因果依赖机制建模视频,并通过多步迭代和并行采样提高效率。

双重突破:全球首个零售VLA大模型来了!开源OpenWBT让机器人遥操门槛暴降!

2025 北京智源大会召开,银河通用机器人Galbot亮相主论坛并展示端到端具身大模型GroceryVLA技术能力。此次发布展示了其在零售行业的真实商业落地能力,并发布了全开源人形机器人遥操作系统OpenWBT。

华为目标院校白名单(2025最新版)

MLNLP社区致力于促进国内外机器学习与自然语言处理的学术交流。该社区涵盖了985高校及部分双非院校,如华为目标院校名单中包括多所顶尖高校。社区还提供了技术交流群邀请函,并介绍相关从业者深造、就业和研究方面的开放交流平台。