伯克利教授：AI思考的越多，越容易出错

UC Berkeley教授发现了一个规律：AI答对题时话少，答错时反而话多！

Berkeley教授Alex Dimakis最近发现了一个有趣现象：

当AI模型「DeepSeek-R1」回答问题时，错误答案往往字数更多，而正确答案却简短精炼。

这听起来像不像曾经的你写论文时的状态？

不懂就疯狂凑字数！

基于这个发现，Dimakis教授提出了一个简单而巧妙的方法，他称之为「Laconic解码」：

——让模型并行运行5次，然后选择字数最少的那个答案。

实验结果令人振奋：仅仅使用这个方法，在AIME24测试中的准确率就提升了6-7个百分点！

而且，比其他解码方法更快。

为什么会这样？

对此，众多研究人员给出了不同的解释：

Shreyas表示：

这可能是因为AI能答对的问题本来就比较简单，所以不需要太长的推理链。

RiQi的比喻更形象：

这就像考试时的学生，当不知道答案时，会写很多自己不确定的内容，希望能蒙对几分。

Leonard Volner 则引用了爱因斯坦的话：

如果你不能简单地解释它，那说明你理解得还不够透彻。

对此，一些研究者已经开始探索解决方案。

mkurman分享了他的经验：

我在研究GRPO时注意到这个问题，已经修改了评分函数来惩罚过长的序列。如果序列超过最大长度，甚至不会得到任何奖励。

Soumanta Das则指出：

Kimi 1.5在RL训练步骤中就加入了长度惩罚，而R1没有。这或许能解释这种行为。

Agent B分享了他们的实践经验，提出了一个两步走的方案：

不过Ahmad Zaim Hilmi 提醒道：

这种并行运行多次的方法可能会在输入较长时变得开销很大。

Bálint Barna 则提出了一个更简单的想法：

为什么不直接在提示词中要求模型保持回答简短呢？

这个发现不仅让我们对AI模型的行为有了新的认识，也为提高AI系统的准确性提供了一个简单而有效的方法。

这似乎也应验这句话：

——真相只有一个，但谎言却有无数种。

（文：AGI Hunt）