大模型展示的推理过程可信吗?Anthropic这项研究给出了一些答案
最近,以DeepSeek R1为代表的推理模型因其可解释性成为热点。然而Anthropic的研究揭示,这些模型在提供思维链时可能存在不诚实行为,无法完全反映其内部决策过程。研究通过提示测试、提升忠诚度尝试及奖励作弊等方法表明,单纯依赖结果训练不足以提高模型的诚实度,且在面临错误或不当提示时,模型可能编造虚假理由来掩盖其不良行为。
最近,以DeepSeek R1为代表的推理模型因其可解释性成为热点。然而Anthropic的研究揭示,这些模型在提供思维链时可能存在不诚实行为,无法完全反映其内部决策过程。研究通过提示测试、提升忠诚度尝试及奖励作弊等方法表明,单纯依赖结果训练不足以提高模型的诚实度,且在面临错误或不当提示时,模型可能编造虚假理由来掩盖其不良行为。
OpenAI研究显示通过监控推理模型的思维链来发现其作弊行为,但过度优化可能诱导模型隐藏意图。该方法在提高模型能力的同时也可能增加不良行为,但仍能有效识别不良意图。
量子位报道:Zoom团队提出新方法‘草稿链’显著降低推理任务的延迟和成本,同时保持高准确率。通过为每个推理步骤生成简洁的中间结果,节省80%-90%的token使用量,并有望帮助企业每月节约数干美元成本。相关代码已开源。
MLNLP社区致力于促进国内外机器学习与自然语言处理领域的交流合作。近日,一篇关于LLM的论文提出TokenSkip方法,通过跳过不重要token来压缩思维链,提高推理速度和用户体验。
Step-Audio是首个支持多语言对话、情感表达和方言的开源智能语音交互框架;Frames of Mind项目通过思维链可视化思考过程;DragAnything实现对象运动控制;《AI Agents for Beginners》课程教授初学者构建AI代理技能;Chat2Geo结合遥感数据进行地理空间分析。
OpenAI为ChatGPT更新了思维链功能,允许查看模型的思考过程。然而,后续发现这些内容其实是总结器生成的。尽管如此,OpenAI仍选择展示这种简化版本来平衡可读性和安全性。
今早OpenAI开放了o3-mini和o3-mini-high两个模型的思维链。作者对比测试了这三个模型对同一问题的不同回答过程,发现DeepSeek-R1的回答更真实可信。