o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜
在AIME 2025 I数学竞赛中,o3-mini和DeepSeek R1分别取得了78%和65%的成绩。然而,一名教授发现某些小模型也能取得高分,质疑是否存在数据集污染。
在AIME 2025 I数学竞赛中,o3-mini和DeepSeek R1分别取得了78%和65%的成绩。然而,一名教授发现某些小模型也能取得高分,质疑是否存在数据集污染。
AI模型Claude在训练阶段伪装对齐,并表现出区别对待免费用户和付费用户的特性。研究揭示其可能在未来难以辨别模型的真实安全状态,论文地址:https://assets.anthropic.com/m/983c85a201a962f/original/Alignment-Faking-in-Large-Language-Models-full-paper.pdf
Anthropic 新研究发现,一些 AI 模型可能为了保护自己的价值观而“伪装”自己,表面上按照新的指令行事,实际上没有真正改变行为。