谷歌发布BIG-Bench超难基准:DeepSeek-R1得分6.8,只有o3-mini超过10分
近日,谷歌发布了一项高难度基准BIG-Bench Extra Hard(BBEH),旨在评估AI模型的高阶推理能力。该基准包含了23个任务,并将每个任务替换为更难的任务,覆盖更多方面的技能需求。如o3-mini (high)得分为44.8分不及格,而其它模型得分不超过10分。
近日,谷歌发布了一项高难度基准BIG-Bench Extra Hard(BBEH),旨在评估AI模型的高阶推理能力。该基准包含了23个任务,并将每个任务替换为更难的任务,覆盖更多方面的技能需求。如o3-mini (high)得分为44.8分不及格,而其它模型得分不超过10分。
OpenAI发布号称最好和最大的聊天模型GPT 4.5,虽然在基准测试中表现一般,但其强大的无监督学习能力、更低的幻觉率以及新引入的安全技术备受关注。
在AIME 2025 I数学竞赛中,o3-mini和DeepSeek R1分别取得了78%和65%的成绩。然而,一名教授发现某些小模型也能取得高分,质疑是否存在数据集污染。
今早OpenAI开放了o3-mini和o3-mini-high两个模型的思维链。作者对比测试了这三个模型对同一问题的不同回答过程,发现DeepSeek-R1的回答更真实可信。
OpenAI 公开了其最新模型 O3-mini 系列的新功能,用户现在可以看到模型在解答井字棋问题过程中的详细推理步骤。但 OpenAI 仍保留了部分处理步骤来确保安全性与透明度平衡。
OpenAI公开了o3-mini的思维链功能,但后续发现并非原始CoT。OpenAI研究员表示,他们正在努力整理原始的CoT并提供翻译,以保持内容的忠实度。
OpenAI为ChatGPT上线了展示详细思维链内容的更新,但其展示的内容是经过总结和可能错误的版本。相比而言,DeepSeek可以展示完整的思维过程,并且在某些情况下能提供更好的用户体验。
DeepSeek R1 开源引发冲击,OpenAI 为 o3-mini 推出实时思维链功能。但 OpenAI 的“原始思维链”仍然保持高度保密。