真实科研水平集体不及格!全新基准SFE给主流多模态LLM来了波暴击
研究团队发布SFE科学评估基准,并构建了SciPrismaX科学评测平台,展示不同大小模型在科学领域的表现。结果显示,最新的MLLMs在高阶推理任务上进步显著,但知识广度变化不大;闭源模型普遍优于开源模型,在可扩展性方面表现出色。研究团队希望构建更严谨、动态且与科研实践深度契合的评估生态。
研究团队发布SFE科学评估基准,并构建了SciPrismaX科学评测平台,展示不同大小模型在科学领域的表现。结果显示,最新的MLLMs在高阶推理任务上进步显著,但知识广度变化不大;闭源模型普遍优于开源模型,在可扩展性方面表现出色。研究团队希望构建更严谨、动态且与科研实践深度契合的评估生态。
近日,谷歌发布了一项高难度基准BIG-Bench Extra Hard(BBEH),旨在评估AI模型的高阶推理能力。该基准包含了23个任务,并将每个任务替换为更难的任务,覆盖更多方面的技能需求。如o3-mini (high)得分为44.8分不及格,而其它模型得分不超过10分。
春节假期最后一天祝大家蛇年上班快乐。DeepSeek研究员过年都没歇,春节期间透露了DeepSeek R1模型性能持续提升的信息,并对强化学习的潜力表示乐观。Daya Guo解释了R1-Zero模型仍处于早期阶段且具备泛化能力,以及其未来可能的应用方向如形式化证明环境等。