北京大学归档 - 第2页共7页 - 每时AI

CVPR 2025 Highlight｜北大联手智元发布首个基于说明书的家电操作评测基准

2025年6月13日16时作者机器之心

北京大学联合智元机器人团队提出CheckManual评测框架，专注于研究基于说明书的家电操作。该框架包含1107份不同内容的家电说明书，涵盖2211个可操作部位和1464个操作任务。通过OCR、多模态大模型解析说明文字及视觉信息，提出ManualPlan模型进行详细的操作规划，并实现与家用电器的真实交互。

视频理解“隐秘的角落”：多任务视频文本理解评测新基准VidText发布

2025年6月12日16时作者 PaperWeekly

VidText 提出了一套全面的视频文本理解基准，覆盖 27 个真实场景和多种语言。它包含从视觉感知到跨模态推理的多个任务，评估模型在不同粒度上的表现，并揭示了影响性能的关键因素。

每秒生成超30帧视频，支持实时交互！自回归视频生成新框架刷新生成效率

2025年6月12日11时作者量子位

近日，微软研究院与北京大学联合发布的新框架Next-Frame Diffusion(NFD)实现了每秒超过30帧的视频生成速度，并保持高质量画面。相比现有自回归视频生成模型，NFD采用帧内双向注意力和帧间因果依赖机制建模视频，并通过多步迭代和并行采样提高效率。

MSRA清北推出强化预训练！取代传统自监督，14B模型媲美32B

2025年6月11日23时作者量子位

微软亚洲研究院联合清华大学、北京大学提出RPT预训练范式，将强化学习深度融入预训练阶段，通过生成思维链推理序列和使用前缀匹配奖励来提升模型预测准确度。

双重突破：全球首个零售VLA大模型来了！开源OpenWBT让机器人遥操门槛暴降！

2025年6月9日16时作者量子位

2025 北京智源大会召开，银河通用机器人Galbot亮相主论坛并展示端到端具身大模型GroceryVLA技术能力。此次发布展示了其在零售行业的真实商业落地能力，并发布了全开源人形机器人遥操作系统OpenWBT。

ICML 2025 抛弃全量微调！北大提出VGP范式，语义低秩分解解锁ViG高效迁移

2025年6月9日16时作者 PaperWeekly

北京大学提出VGP方法，通过语义低秩分解增强图结构图像模型的参数高效迁移能力，在多种下游任务中实现媲美全量微调的性能。

华为目标院校白名单（2025最新版）

2025年5月29日14时作者机器学习算法与自然语言处理

MLNLP社区致力于促进国内外机器学习与自然语言处理的学术交流。该社区涵盖了985高校及部分双非院校，如华为目标院校名单中包括多所顶尖高校。社区还提供了技术交流群邀请函，并介绍相关从业者深造、就业和研究方面的开放交流平台。

首个面向柔性衣物灵巧操作的仿真平台来了，北大、伯克利联合发布

2025年5月28日16时作者机器之心

北京大学董豪老师课题组提出DexGarmentLab仿真平台和HALO泛化策略，解决柔性衣物操作中的数据依赖、物理真实性不足及算法泛化能力弱等问题。

牛津大学等深挖746万成年人健康数据开发早筛算法，基于血液指标实现15种癌症早期预测

2025年5月27日11时作者 HyperAI超神经

队合作，基于英格兰地区 746 万成年人的匿名电子健康记录，开发了 2 种新型癌症预测算法：基础算法