BIG-Bench Extra Hard归档

谷歌发布BIG-Bench超难基准：DeepSeek-R1得分6.8，只有o3-mini超过10分

2025年2月28日16时作者机器之心

近日，谷歌发布了一项高难度基准BIG-Bench Extra Hard（BBEH），旨在评估AI模型的高阶推理能力。该基准包含了23个任务，并将每个任务替换为更难的任务，覆盖更多方面的技能需求。如o3-mini (high)得分为44.8分不及格，而其它模型得分不超过10分。