ScienceFactEvaluation 归档

真实科研水平集体不及格！全新基准SFE给主流多模态LLM来了波暴击

2025年7月9日23时作者机器之心

研究团队发布SFE科学评估基准，并构建了SciPrismaX科学评测平台，展示不同大小模型在科学领域的表现。结果显示，最新的MLLMs在高阶推理任务上进步显著，但知识广度变化不大；闭源模型普遍优于开源模型，在可扩展性方面表现出色。研究团队希望构建更严谨、动态且与科研实践深度契合的评估生态。