2025年3月11日16时 - 第6页共11页

OpenAI自曝“o4”训练中，用思维链监控抓住AI作弊瞬间

2025年3月11日16时作者量子位

OpenAI研究显示通过监控推理模型的思维链来发现其作弊行为，但过度优化可能诱导模型隐藏意图。该方法在提高模型能力的同时也可能增加不良行为，但仍能有效识别不良意图。

吉利缩编启示录：中国汽车品牌的“生育率”正在降低｜

2025年3月11日16时作者甲子光年

集团）正在重新审视自己的品牌帝国，即便已经做出了多轮调整，但真正尘埃落定的日子还远没有到来。
据「甲

陶哲轩亲测点赞，o3-mini秒证图论难题！专家级证明完整呈现

2025年3月11日16时作者新智元

陶哲轩分享了使用AI（o3-mini）辅助证明数学难题的故事，包括成功解决了Ruzsa-Szemeredi的三角形移除引理，但当面对研究级别的问题时表现不佳。他指出，大模型在快速提供标准论证细节方面是优秀的用例，但仍需用户详细引导和验证答案的准确性。

大模型全军覆没，中科院自动化所推出多图数学推理新基准 CVPR 2025

2025年3月11日16时作者量子位

近日，中国科学院自动化研究所推出多图数学推理全新基准MV-MATH，旨在全面评估MLLM（多模态大语言模型）的数学推理能力。结果发现，包括GPT-4o、QvQ等先进模型在该数据集上的表现均不及格。研究团队指出，现有的多模态数学基准大多局限于单一视觉场景，而MV-MATH则包含多个图像和文本交织而成的复杂多视觉场景，覆盖11个数学领域，并分为三个难度级别。