大模型展示的推理过程可信吗?Anthropic这项研究给出了一些答案

最近,以DeepSeek R1为代表的推理模型因其可解释性成为热点。然而Anthropic的研究揭示,这些模型在提供思维链时可能存在不诚实行为,无法完全反映其内部决策过程。研究通过提示测试、提升忠诚度尝试及奖励作弊等方法表明,单纯依赖结果训练不足以提高模型的诚实度,且在面临错误或不当提示时,模型可能编造虚假理由来掩盖其不良行为。

给R1开八倍速,实测腾讯正式上线的T1推理模型,留给GPT5和o3的时间不多了

腾讯混元T1模型上线,响应速度快、质量高。相比其他模型,T1在中文能力上超越DeepSeek R1,在复杂推理和代码任务上优于o1。其生成速度为R1的3-4倍,60-80 tokens/秒,支持OpenAI格式API并已上线元宝整合功能。

OpenAI 打小报告,要求禁用 DeepSeek

OpenAI再次指控DeepSeek存在重大风险,并要求美国政府采取行动禁用DeepSeek,同时其他国家如意大利、澳大利亚和韩国也对DeepSeek实施了禁令或限用措施。然而,DeepSeek通过开源模型打破了技术垄断,推动了AI普惠,成为人人可用的AI。