推理时间扩展在LLM 中的不同变体

自从🍓o1发布以来，“推理时间扩展”（Inference Time Scaling, ITS）成为了一个热门词汇。

我们能看到它在多个不同的背景中被使用，一些之前的技术也被重新包装为当前ITS 的实例。

所有ITS应用的共同点似乎是，在推理时，大语言模型（LLM）不仅仅是生成回答，还需要进行额外的计算，这意味着它们在推理阶段消耗的计算资源比标准自回归LLM更多。

然而，具体实现方式差异较大，这会对我们预期的准确性产生显著影响。

以下是关于ITS不同变体的小分类，并附带一些关于它们相对效果的评论。

1. 仅改变推理阶段（保持预训练LLM不变）

这个思路的核心是通过生成多个候选答案，并从中选出最合适的响应。

存在两个问题：如何生成大量的候选答案，以及如何选择最有前景的候选。

[候选生成]

候选答案的生成可以通过两种方式进行：直接从LLM中采样（使用适当的温度设置），或者通过在原始提示中增加额外的扩展字符串来生成额外的候选答案。这些扩展字符串最初在“思维链”（Chain of Thought）相关论文中流行开来，但如今已经明确，扩展字符串不一定要被拟人化为“思维链”！（参考：Link[1]）

如果我们考虑扩展字符串（在这里称之为CoT字符串，但不做拟人化），也可以在多个CoT字符串之间进行搜索（最近的Marco-o1就显式地做了这一点）。

[选择]

一旦候选答案生成出来，就需要选择一个（或多个）有前景的候选答案。常见的选择方法包括：

1.1 简单多数投票（以及其他版本，如自一致性）

1.2 基于验证器的选择：从生成的候选答案中进行选择。

这里的关键问题是：“用什么来验证？”

[1.2.1 使用LLM作为验证器]

一些早期的方法使用LLM本身作为验证器，但有研究表明，LLM在自我验证方面并不比初始生成更有效。它们可能出现假阳性和假阴性。

一个关键的推论是，最终选择的候选答案仍然可能是错误的，这在部署失败成本较高的情况下尤为问题重重。（参考：Link[2]）

[1.2.2 学习型验证器]

通过学习任务特定的验证器来提高验证准确度也是可能的，这一方法在“生成验证器”下得到了关注。但这其实是一个较为古老的思路，旨在利用“预测候选正确性”是一项“区分性任务”，因此可以降低样本复杂度。（参考：Link[3]）。学习型验证器能够提升准确度，但不能提供绝对保证。

[1.2.3 LLM-Modulo方法]

另一种常见的替代方案是使用外部任务特定的健全验证器——这一点在LLM-Modulo中有提及（参考：Link[4]）。

这些验证器可以确保任何解决方案的健全性，尤其在安全关键场景中尤为重要。

一个有趣的局限性是，候选答案的生成仍然依赖于原生的预训练LLM。因此，整体架构的效果将取决于底层LLM的“生成能力”。（参考：Link[5]）

2. 改变LLM的训练阶段，再应用推理时间扩展

在LLM的训练阶段所做的改变可能包括额外的任务特定微调——特别是使用推导性痕迹（Derivational Traces）（参考：Link[6]）。

或者更雄心勃勃的Mu-zero风格强化学习训练（可能仅通过伪CoT动作来覆盖一系列任务）。后一种方法即是目前被猜测为o1的实现方式：（参考：Link[7]）。

一旦修改过的训练阶段完成，最终生成的LLM可以用于执行步骤1中的任何ITS方法。

一般来说，纯粹的ITS（上述的第一种类型）如果不改变训练阶段（第二种类型），通常不会带来显著的准确性提升。而通过Mu-zero风格的方法改变训练阶段，往往比单纯通过推导性痕迹进行微调更为有效。（参见：Link[8]）

当然，一旦我们开始应用任何形式的推理时间扩展，LLM的自回归效率（系统1）将不再适用，计算复杂度问题——在成本和准确性之间的权衡——再次成为关键因素；详细请参考“大语言模型推理中的石汤效应”（Link[9]）。

【附】石汤效应故事介绍

“石汤” 是一个经典的民间故事，广泛流传于不同文化中，尤其在欧洲和亚洲都能找到类似的版本。

它讲述了如何通过集体合作和智慧，从简单的东西中创造出丰富的成果。

故事的隐喻意义在于，通过各方的贡献，平凡的事物也可以变得非凡。

故事概述

饥荒的村庄：有一个村庄面临着饥荒，村民们都没有足够的食物来度过难关。大家各自私心地担心自己的食物不够，而没有共享资源。
陌生人出现：一天，一位陌生人来到村里，他告诉村民们自己可以做一锅美味的汤。村民们都感到好奇，便询问他需要什么材料。
神奇的石头：陌生人回答说，唯一需要的材料是一块神奇的“石头”。他把石头放进一个大锅里，然后加入水开始加热。
村民的贡献：看到这一幕，村民们觉得自己可以提供一些东西来帮助改善这锅“石汤”。于是，他们开始一个接一个地捧来食物——胡萝卜、土豆、洋葱、香料等。
最终的成果：最后，大家共同努力，将各自的食材加入锅中，结果煮出来的是一锅美味的汤，大家都能共享。

隐喻意义

“石汤”的故事传达了一个重要的教训：即使是看似微不足道的资源，通过集体的智慧和合作，也能创造出超出预期的价值。

在故事中，石头本身并没有任何特殊的价值，但它激发了村民们的合作精神，最终带来了丰盛的成果。

在现代社会中，“石汤”常用来形容集体合作、资源共享或在复杂系统中，如何通过不同元素的结合，创造出更为有效和强大的结果。

在AI或大语言模型（LLM）领域，“石汤”效应常被用来形容不同技术、方法或数据的结合，如何推动智能系统产生更好、更强的推理能力。

石汤故事是一个关于合作、共享和创新的故事，强调了集体智慧的重要性。

它也告诉我们，通过多种方法的融合和增强，可以创造出更高效、精确的推理过程。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30