ICML Spotlight MCU:全球首个生成式开放世界基准,革新通用AI评测范式
该研究由通用人工智能研究院与北京大学合作开发了一种名为MCU的生成式开放世界平台,用于评估通用智能体在复杂环境中的能力。MCU支持无限多样化的任务配置和环境变量,旨在全面测试智能体的真实能力和泛化水平,并通过高效的工具简化评测流程。论文详细介绍了MCU的设计及其功能突破。
该研究由通用人工智能研究院与北京大学合作开发了一种名为MCU的生成式开放世界平台,用于评估通用智能体在复杂环境中的能力。MCU支持无限多样化的任务配置和环境变量,旨在全面测试智能体的真实能力和泛化水平,并通过高效的工具简化评测流程。论文详细介绍了MCU的设计及其功能突破。
香港中文大学等团队提出Flow-GRPO,首个将在线强化学习引入流匹配模型的工作。显著提升图像生成模型在复杂场景理解、文本渲染任务上的性能,将SD3.5 Medium准确率从63%提升至95%,组合式生图能力超越GPT-4。
腾讯混元等联合提出的新模型UnifiedReward-Think能进行长链式推理,首次让奖励模型在视觉任务上真正 ‘学会思考’。该研究提出了三阶段训练框架,并展示了其在多个视觉任务中的出色表现和可靠性。
2025长三角(芜湖)算力算法创新应用大赛启动,涵盖数据、算力和算法赛道,提供最高12万元奖金,涉及智慧城市、智能制造等多个领域的真实应用场景。
OpenAI发布HealthBench医疗AI评估新基准,通过全球60国262名医生合作创建庞大数据库,旨在推动医疗AI发展。最新模型o3表现优异,接近人类医生水平;同时揭示AI在某些任务上超越了部分医生的表现。
2025年5月12日,IT桔子收录5起并购事件:国内知行科技收购小工匠机器人股份;国外三井住友银行、DHL、Pan American Silver和达能分别收购Yes Bank股份、IDS Fulfillment、MAG Silver和Kate Farms多数股权。