ICML Spotlight MCU:全球首个生成式开放世界基准,革新通用AI评测范式

该研究由通用人工智能研究院与北京大学合作开发了一种名为MCU的生成式开放世界平台,用于评估通用智能体在复杂环境中的能力。MCU支持无限多样化的任务配置和环境变量,旨在全面测试智能体的真实能力和泛化水平,并通过高效的工具简化评测流程。论文详细介绍了MCU的设计及其功能突破。

首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o

香港中文大学等团队提出Flow-GRPO,首个将在线强化学习引入流匹配模型的工作。显著提升图像生成模型在复杂场景理解、文本渲染任务上的性能,将SD3.5 Medium准确率从63%提升至95%,组合式生图能力超越GPT-4。

首个多模态统一CoT奖励模型来了,模型、数据集、训练脚本全开源

腾讯混元等联合提出的新模型UnifiedReward-Think能进行长链式推理,首次让奖励模型在视觉任务上真正 ‘学会思考’。该研究提出了三阶段训练框架,并展示了其在多个视觉任务中的出色表现和可靠性。

仅靠 AI 就比独立医生好 4 倍?OpenAI HealthBench 数据震撼,o3 太强了!

OpenAI发布HealthBench医疗AI评估新基准,通过全球60国262名医生合作创建庞大数据库,旨在推动医疗AI发展。最新模型o3表现优异,接近人类医生水平;同时揭示AI在某些任务上超越了部分医生的表现。

知行科技:全资子公司拟收购小工匠机器人大部分股份|每日并购

2025年5月12日,IT桔子收录5起并购事件:国内知行科技收购小工匠机器人股份;国外三井住友银行、DHL、Pan American Silver和达能分别收购Yes Bank股份、IDS Fulfillment、MAG Silver和Kate Farms多数股权。