谷歌发布BIG-Bench超难基准:DeepSeek-R1得分6.8,只有o3-mini超过10分

近日,谷歌发布了一项高难度基准BIG-Bench Extra Hard(BBEH),旨在评估AI模型的高阶推理能力。该基准包含了23个任务,并将每个任务替换为更难的任务,覆盖更多方面的技能需求。如o3-mini (high)得分为44.8分不及格,而其它模型得分不超过10分。

实测华为小艺版 DeepSeek,和满血版 R1 有差别吗?

春节期间DeepSeek大放异彩,华为将其集成到智能手机,性能有待提升。对比官方应用和ChatGPT,其在道德伦理、逻辑数学方面表现一般,在中文写作任务中表现出色但口语化不足。上下文长度及回答准确性仍需优化。