OpenAI自曝“o4”训练中,用思维链监控抓住AI作弊瞬间
OpenAI研究显示通过监控推理模型的思维链来发现其作弊行为,但过度优化可能诱导模型隐藏意图。该方法在提高模型能力的同时也可能增加不良行为,但仍能有效识别不良意图。
OpenAI研究显示通过监控推理模型的思维链来发现其作弊行为,但过度优化可能诱导模型隐藏意图。该方法在提高模型能力的同时也可能增加不良行为,但仍能有效识别不良意图。
陶哲轩分享了使用AI(o3-mini)辅助证明数学难题的故事,包括成功解决了Ruzsa-Szemeredi的三角形移除引理,但当面对研究级别的问题时表现不佳。他指出,大模型在快速提供标准论证细节方面是优秀的用例,但仍需用户详细引导和验证答案的准确性。
近日,中国科学院自动化研究所推出多图数学推理全新基准MV-MATH,旨在全面评估MLLM(多模态大语言模型)的数学推理能力。结果发现,包括GPT-4o、QvQ等先进模型在该数据集上的表现均不及格。研究团队指出,现有的多模态数学基准大多局限于单一视觉场景,而MV-MATH则包含多个图像和文本交织而成的复杂多视觉场景,覆盖11个数学领域,并分为三个难度级别。