大模型融合新思路！港城大、华为等提出UniTE，显著提升LLM集成效率和性能

本文由香港城市大学联合华为诺亚方舟实验室，香港科技大学（广州）等机构合作完成。该工作录用于 ICLR 2025，并且入选 Spotlight（8886）。

论文背景

大型语言模型（LLMs）近年来在多个领域取得了显著的进展，展现出卓越的性能。然而，由于 LLMs 的训练依赖于多种数据源、模型架构和训练方法，它们在不同任务中展现出各自的优势和劣势。某些 LLMs 在理解和生成长文本方面表现突出，而另一些则可能在特定领域的知识获取上更为精确。

因此，单靠从零开始训练一个 LLM 并不能满足所有需求。在这种背景下，创建一个 LLM 集成的方案成为了一个有效的替代方法 [1]。这种集成方法通过结合多个 LLMs 的优点，可以更充分地发挥各个模型的互补优势，从而提高整体的任务性能。

现有的 LLM 集成方法 [2][3]，面临两个重大挑战。首先，这些方法仅关注集成技术，忽视了哪些类型的模型可以有效结合的重要讨论。这一疏忽至关重要，因为在架构、规模和分词器上存在显著差异的 LLMs 可能本质上不兼容，从而导致潜在的不兼容性，削弱集成的优势。

其次，这些方法倾向于在每个生成步骤中对整个词汇表的概率进行对齐。这种策略在推理过程中引入了大量的计算开销，从而影响了性能和效率。

我们通过深入分析影响 LLM 集成性能的关键因素，提出了 UniTE 方法，显著提高了集成效率和性能，超越了现有的最先进方法。

论文标题：

Determine-Then-Ensemble: Necessity of Top-k Union for Large Language Model Ensembling

论文链接：

https://arxiv.org/pdf/2410.03777

代码链接：

https://github.com/starrYYxuan/UniTE

集成因素分析

模型融合作为提升性能的有效策略，其效果受多种因素影响，如模型性能、响应过程和词汇冗余等。因此，研究这些关键因素对模型融合性能的影响至关重要。哪些因素对模型融合的性能有着重要影响呢？

我们对真正影响集成性能的因素进行了深入调查。我们的实证分析确定了三个关键因素：模型性能、词汇大小和响应过程。我们在多个公认的基准测试中评估了多种 LLM，以从这些角度探索集成。我们的发现揭示了几个重要见解：

1）基础 LLM 之间性能水平的差异显著影响它们的集成兼容性；

▲ 图1：模型基础性能对融合的影响

为了研究性能差异对模型集成的影响，我们选择了 LLaMA2-13B 和 Mistral-7B 作为基础模型，这两个模型在多个任务中表现出显著的性能差距。我们使用三种比较方法评估了 GSM8K、PIQA、ARC-C 和 NQ 数据集。显而易见，性能差距较大的模型不适合集成。

▲ 图2：性能差异对 GSM8K 数据集上模型集成效果的影响

为了进一步了解性能差异如何影响集成，我们根据 GSM8K 数据集确定了模型对，性能差距约为 40%、25%、15% 以及低于 10%。

图 2 显示，随着性能差距的增加，来自劣势模型的集成改进变得更加明显。相反，对于优势模型，集成效果始终低于基准性能。当性能差异在 10% 以内时，集成可能会产生更好的结果。

2）词汇大小的影响有限：

采用不同分词方法（如 BPE 和 BBPE）的较大模型在对牛津 5000 个常用词进行分词时，显示出超过 90% 的重叠。这表明分词方法对模型集成的影响有限，因此我们将重点放在词汇大小对集成性能的影响上。

为此，我们选择了四个在某些数据集上表现相似但词汇表大小不同的模型，即 LLaMA2-13B（词汇大小：32,000）、Mistral-7B（词汇大小：32,768）、Yi-6B（词汇大小：64,000）和 DeepSeek-LLM-7B（词汇大小：102,400）。

▲ 表1：词表大小模型集成效果的影响

从上表可知，词汇表大小对模型集成的影响很小。

3）即使在性能和词汇大小上达成一致，响应中的推理过程存在重大差异也可能阻碍成功的集成。

▲ 表2：回复方式的显著差异或将造成集成失效

如表 2 所示，在相同的提示条件下，LLaMA3 倾向于直接返回答案，而 Qwen2 则倾向于进行分析。响应长度显著影响判断。在我们对 100 个随机选择的 NQ 和 TriviaQA 响应的分析中，Blender 在约 80% 和 70% 的情况下分别将较长的响应作为答案，这可能与其训练数据的特征有关。

▲ 图3：不同模型的词概率分布

图 3 显示 LLaMA3 和 Qwen2 在前两个 token 的概率分布存在明显差异。直接对概率进行平均可能导致分布过于平滑，这并不合适。这一现象的根本原因可能是 LLM 训练数据的差异。因此，在特定任务中需谨慎。

综上，我们提出了一种策略，通过比较模型在目标任务上的表现和响应风格，评估其集成兼容性，并指导从候选模型池中选择基础模型。理想情况下，性能差距应在 10% 以内，且响应长度应合理匹配，以实现有效的集成。

除了模型选择策略，我们还努力提高模型集成的效率和性能。现有的概率级模型集成方法试图通过完全的词汇对齐来组合模型。

我们认为这种方法并不理想，因为候选下一个 token 通常位于前 k 个 token 中。相反，纳入概率较低的 token 可能会引入不必要的噪声，从而降低集成的整体准确性和有效性。

基于此，我们提出了 Union Top-k Ensembling（UniTE），一种新颖且高效的集成方法，仅在每次解码步骤中对齐前 K 个 token。

UNITE 的具体实现

给定一组基础模型（LLMs），每个模型都有独立的分词器和词汇表。对于输入的文本提示，每个模型生成一个概率分布，表示下一个可能的词元及其概率。

1. Top-k 候选词元提取：提取每个模型概率分布中前 k 个最高概率的词元，并记录其概率。

2. 联合集合构建与对齐：将所有模型的 Top-k 词元合并成一个联合集合，并根据以下规则更新概率分布：

如果词元同时在联合集合和某模型的 Top-k 中，则保留其原始概率。
如果词元在联合集合中但不在某模型的 Top-k 中且在该模型词汇表中，则添加并更新其概率。
如果词元不在某模型的词汇表中，则用该模型的分词器对其分词，并更新 Top-k 词元。

3. 概率聚合与下一步预测：对更新后的 Top-k 词元进行归一化处理，计算所有模型的平均概率。然后，使用贪婪策略从联合集合中选择下一个词元，添加到输入文本中，重复此过程直到满足停止条件。

实验结果

我们的实验使用了多种常用模型，包括 LLaMA2 和 LLaMA3 系列、Mistral、DeepSeek、Yi、OpenChat 以及 Qwen 等。评价基准分为三类：综合理解、推理能力以及知识能力。

如上表所示：

（1）UNITE 在基础模型性能相似时提升了表现：OpenChat 的集成平均提高约 1.2%。然而，GSM8K 任务中 DeepSeek 与 OpenChat 的 15% 性能差距导致整体性能略降，验证了模型性能紧密对齐时集成效果最佳。

（2）UNITE 展现出更强的鲁棒性：尽管 LLM-BLENDER 在 GSM8K 上表现提升，但在 PIQA、ARC-C 和 MMLU 中明显低于基线模型。相比之下，UNITE 在大多数任务中实现了最高性能提升。

（3）与性能相似 LLM 的合作不一定带来更好结果：尽管整合 LLaMA3.1 在GSM8K 和 ARC-C 上有所提高，但在 PIQA 和 MMLU 上表现不佳，说明结合相似性能模型的提升并非必然。

此外，我们还进行了时延分析，发现 UniTE 的延迟为 87.78 毫秒/词元，显著低于其他方法的延迟，仅比单个模型的延迟长约 10 毫秒。

总结

1. 我们的研究强调了集成方法在提升 LLMs 性能方面的有效性。

2. 通过对现有技术的研究，我们识别了影响集成成功的关键因素，如模型性能和响应过程，同时发现词汇大小的影响较小。

3. 我们提出了 UNITE，它能够高效地聚合来自多个 LLMs 的词元，而无需计算开销。通过广泛的实验，UNITE 持续超越最先进的集成方法，证明了其在利用不同 LLMs 优势方面的有效性。我们的贡献不仅推动了对模型集成的理解，还提供了选择和整合 LLMs 以实现更优性能的实用框架。

（文：PaperWeekly）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复