伯克利教授:AI思考的越多,越容易出错

UC Berkeley教授发现了一个规律:AI答对题时话少,答错时反而话多!

Berkeley教授Alex Dimakis最近发现了一个有趣现象:

当AI模型「DeepSeek-R1」回答问题时,错误答案往往字数更多,而正确答案却简短精炼

这听起来像不像曾经的你写论文时的状态?

不懂就疯狂凑字数!

基于这个发现,Dimakis教授提出了一个简单而巧妙的方法,他称之为「Laconic解码」:

——让模型并行运行5次,然后选择字数最少的那个答案

实验结果令人振奋:仅仅使用这个方法,在AIME24测试中的准确率就提升了6-7个百分点

而且,比其他解码方法更快。

为什么会这样?

对此,众多研究人员给出了不同的解释:

Shreyas表示:

这可能是因为AI能答对的问题本来就比较简单,所以不需要太长的推理链。

RiQi的比喻更形象:

这就像考试时的学生,当不知道答案时,会写很多自己不确定的内容,希望能蒙对几分。

Leonard Volner 则引用了爱因斯坦的话:

如果你不能简单地解释它,那说明你理解得还不够透彻。

训练能解决这个问题吗?

对此,一些研究者已经开始探索解决方案。

mkurman分享了他的经验:

我在研究GRPO时注意到这个问题,已经修改了评分函数来惩罚过长的序列。如果序列超过最大长度,甚至不会得到任何奖励。

Soumanta Das则指出:

Kimi 1.5在RL训练步骤中就加入了长度惩罚,而R1没有。这或许能解释这种行为。

实践应用

Agent B分享了他们的实践经验,提出了一个两步走的方案:

不过Ahmad Zaim Hilmi 提醒道:

这种并行运行多次的方法可能会在输入较长时变得开销很大。

Bálint Barna 则提出了一个更简单的想法:

为什么不直接在提示词中要求模型保持回答简短呢?

这个发现不仅让我们对AI模型的行为有了新的认识,也为提高AI系统的准确性提供了一个简单而有效的方法。

这似乎也应验这句话:

——真相只有一个,但谎言却有无数种。

(文:AGI Hunt)

欢迎分享

发表评论