DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制
最新研究揭示了大模型解决常见英语谜题的局限性,如DeepSeek R1常常放弃给出错误答案。研究人员创建了一个包含近600个问题的新基准测试,并发现在使用超过3000个令牌后继续推理对提升准确率帮助不大。
最新研究揭示了大模型解决常见英语谜题的局限性,如DeepSeek R1常常放弃给出错误答案。研究人员创建了一个包含近600个问题的新基准测试,并发现在使用超过3000个令牌后继续推理对提升准确率帮助不大。