O3-mini归档 - 第2页共5页

谷歌发布BIG-Bench超难基准：DeepSeek-R1得分6.8，只有o3-mini超过10分

下午4时 2025/02/28 作者机器之心

近日，谷歌发布了一项高难度基准BIG-Bench Extra Hard（BBEH），旨在评估AI模型的高阶推理能力。该基准包含了23个任务，并将每个任务替换为更难的任务，覆盖更多方面的技能需求。如o3-mini (high)得分为44.8分不及格，而其它模型得分不超过10分。

下午2时 2025/02/28 作者 AI先锋官

OpenAI发布号称最好和最大的聊天模型GPT 4.5，虽然在基准测试中表现一般，但其强大的无监督学习能力、更低的幻觉率以及新引入的安全技术备受关注。

下午12时 2025/02/13 作者钛媒体AGI

PT-4.5和GPT-5的路线图消息。
奥尔特曼表示，OpenAI将很快（几周/月内）发布代号为“O

下午12时 2025/02/08 作者新智元

在AIME 2025 I数学竞赛中，o3-mini和DeepSeek R1分别取得了78%和65%的成绩。然而，一名教授发现某些小模型也能取得高分，质疑是否存在数据集污染。

下午2时 2025/02/07 作者 AI信息Gap

今早OpenAI开放了o3-mini和o3-mini-high两个模型的思维链。作者对比测试了这三个模型对同一问题的不同回答过程，发现DeepSeek-R1的回答更真实可信。

下午12时 2025/02/07 作者 APPSO

OpenAI 公开了其最新模型 O3-mini 系列的新功能，用户现在可以看到模型在解答井字棋问题过程中的详细推理步骤。但 OpenAI 仍保留了部分处理步骤来确保安全性与透明度平衡。

下午12时 2025/02/07 作者新智元

OpenAI公开了o3-mini的思维链功能，但后续发现并非原始CoT。OpenAI研究员表示，他们正在努力整理原始的CoT并提供翻译，以保持内容的忠实度。

下午12时 2025/02/07 作者机器之心

OpenAI为ChatGPT上线了展示详细思维链内容的更新，但其展示的内容是经过总结和可能错误的版本。相比而言，DeepSeek可以展示完整的思维过程，并且在某些情况下能提供更好的用户体验。

下午12时 2025/02/07 作者 AI寒武纪

DeepSeek R1 开源引发冲击，OpenAI 为 o3-mini 推出实时思维链功能。但 OpenAI 的“原始思维链”仍然保持高度保密。