o3归档 - 第4页共5页

OpenAI 最强模型被曝造假！提前获取测试题，顶级数学家被蒙在鼓里

下午4时 2025/01/20 作者 APPSO

近日，OpenAI在FrontierMath数学基准测试中成绩突飞猛进，但承包商爆料称其获得了不公平的特权访问权，引发争议。

下午12时 2025/01/20 作者新智元

FrontierMath数学基准测试中o3模型表现优异，但因OpenAI资助和数据访问权引发质疑。Epoch AI与OpenAI合作未公开资金来源，导致数学家蒙在鼓里。Epoch AI及Tamay Besiroglu表示将提高透明度。

下午12时 2025/01/02 作者硅星人Pro

文章报道了OpenAI发布旗舰推理模型o3和o3-mini的消息，并详细描述了该公司的员工如何集体为这一产品背书，强调其在数学、编程和推理方面的突破性成就。

下午8时 2024/12/29 作者机器之心

OpenAI 新模型 o3 在 ARC-AGI 基准测试中取得了显著进步，但仍有部分任务无法解决。o3 能够适应新任务的能力实现了质的飞跃，但仍存在一些局限性。

下午12时 2024/12/26 作者量子位

研究发现，题目中网格规模越大，大模型的表现越差。ML工程师米哥对ARC数据集进行观察后发现，o3、o1和Claude等模型的性能下降与网格数量有关，提示大模型在应对大规模网格问题时可能存在问题。

下午12时 2024/12/26 作者钛媒体AGI

2024年，ChatGPT热潮延烧，生成式 AI 领域进入“深水区”，AI 应用和商业落地成为行业发

下午6时 2024/12/25 作者 APPSO

文章介绍了AI在各种智能测试中的表现，并讨论了使用这些测试衡量AI能力的方法论局限性。文章指出用人类标准衡量AI可能存在偏差，强调应关注AI解决实际问题的能力。

下午4时 2024/12/21 作者毫河风报

OpenAI今日发布其最新AI模型o3。在ARC-AGI测试中，o3正确率达到惊人的87.5%，超越了GPT-4仅及格的成绩。它还表现出色的编程和数学能力，并指出其高昂的使用成本（高算力模式下需花费2万美元）。OpenAI表示，尽管o3已表现出强大实力，但仍存在与人类智能的巨大差距。

下午2时 2024/12/21 作者 AI先锋官

OpenAI在12天直播中推出了新的推理模型o3和o3 Mini，并开放外部安全研究人员进行测试。o3在SWE-Bench Verified测试中的准确率达到71.7%，比前代产品o1高出约20%；数学能力上表现突出，在AIME 2024数学竞赛中得分96.7%。