小学数学题,大模型集体不及格!达摩院推出新基准VCBench
大模型在小学数学题测试中表现不佳,平均得分为47.03%-49.77%,显著低于人类的93.30%。达摩院推出的新基准VCBench专注于评估具备显式视觉依赖性的多模态数学推理任务,强调vision-centric而非knowledge-centric。该基准主要针对小学1-6年级的数学问题,全面评估纯视觉推理的多种能力,涵盖六大核心认知领域和五种不同认知能力。
大模型在小学数学题测试中表现不佳,平均得分为47.03%-49.77%,显著低于人类的93.30%。达摩院推出的新基准VCBench专注于评估具备显式视觉依赖性的多模态数学推理任务,强调vision-centric而非knowledge-centric。该基准主要针对小学1-6年级的数学问题,全面评估纯视觉推理的多种能力,涵盖六大核心认知领域和五种不同认知能力。
达摩院在ICLR 2025提出了动态架构DyDiT,通过智能资源分配将DiT模型的推理算力削减51%,生成速度提升1.73倍,FID指标几乎无损,并且仅需3%的微调成本。
划重点:
❶
中国AI团队强势崛起
!
Qwen2.5系列
实现
多模态理解
、
百万字长文本处理
达摩院开源的AI妆容迁移项目基于潜在扩散模型,采用‘解耦-重构’范式和自监督学习策略。通过拉普拉斯金字塔分解纹理细节及迭代双重对齐模块,提升图像真实性、内容保留与妆容保真度,为化妆迁移任务提供全新解决方案。
最近几天常用生图工具Whisk生成的图片效果令人惊喜。通过两张参考图片,可以轻松实现复杂的构想。使用Whisk能大幅降低创意绘画门槛,用户无需详细描述人物长相、穿着和背景环境,只需上传主题图片和风格图片即可。