PhysUniBenchmark:首个大规模多模态物理推理基准 2025年6月30日8时 作者 NLP工程化 首个大规模多模态物理推理基准PhysUniBenchmark发布,包含3304道经验证的物理问题,支持多语言评估,开放性问题准确率仅为26.5%。