Dataset and benchmark
MMTEB: Massive Multilingual Text Embedding Benchmark
文本嵌入通常仅在有限的任务集上进行评估,这些任务在语言、领域和任务类型上都较为单一。为了突破这一限制并提供更全面的评估,我们提出了大规模多语言文本嵌入基准(MMTEB)。这是一个由社区驱动的大规模扩展项目,将MTEB扩展到超过500个质量受控的评估任务,涵盖超过1,000种语言。MMTEB包含了一系列具有挑战性的全新任务,例如指令跟随、长文档检索和代码检索,成为迄今为止针对嵌入模型的最大多语言评估任务集合。
Mexa: Multilingual Evaluation of English-Centric LLMs via Cross-Lingual Alignment
英语为中心的大语言模型(LLMs)通常表现出较强的多语言能力。然而,这些模型的多语言性能在许多语言上的表现仍不明确,且缺乏全面的评估。目前的大多数多语言基准测试主要关注传统的自然语言处理任务,或仅覆盖极少的语言。我们提出了Mexa,一种使用平行句子评估以英语为中心的预训练LLMs多语言能力的方法。相比现有的下游任务,平行句子可用于更多语言。Mexa利用了英语为中心的LLMs在中间层将英语作为一种枢纽语言的特点,通过平行句子计算英语与非英语语言之间的对齐,从而评估语言理解从英语向其他语言的迁移情况。这种对齐可以用于预测其他语言中的任务性能。
McEval: Massively Multilingual Code Evaluation
代码大语言模型(LLMs)在代码理解、补全和生成任务上取得了显著进展。编程基准测试,包括一系列代码挑战及相应的测试用例,成为评估不同LLMs在这些任务中能力的标准。然而,大多数现有基准主要集中在Python,并且仍然限于少数语言,其中其他语言是从Python样本翻译而来(例如MultiPL-E),这降低了数据的多样性。为了进一步促进代码LLMs的研究,我们提出了一个覆盖40种编程语言的海量多语言代码基准(McEval),该基准包含16K个测试样本,极大地推动了代码LLMs在多语言场景下的极限。
M4U: Evaluating Multilingual Understanding and Reasoning for Large Multimodal Models
多语言能力是大型多模态模型的一个重要方面,因为这些模型通常在多个国家和语言环境中部署。然而,大多数现有的多语言多模态推理基准测试难以区分不同性能的模型;即使是没有视觉能力的语言模型也能轻松获得高分。这使得对领先的多语言多模态模型进行全面评估的工作仍然较少。在本研究中,我们提出了M4U,一个新颖且具有挑战性的基准,用于评估多学科多语言多模态理解与推理能力。M4U包含8,931个样本,涵盖了科学、工程和医疗领域的64个学科,涉及中、英、德三种语言。
Multimodel
Objective Soups: Multilingual Multi-Task Acoustic Modeling for Automatic Speech Recognition
训练多语言多任务自动语音识别(ASR)模型的需求日益显现。然而,使用单一模型时,多目标间的冲突是一个主要挑战。多目标优化(MOO)通过对多个冲突目标的优化来解决这一问题,使梯度更新对齐于一个共同下降方向。尽管MOO可以避免梯度更新方向之间的冲突,但在涉及许多目标(如多语言多任务ASR)时,通常难以找到这样的共同下降方向。因此,一个有趣的问题是:将高度冲突的目标分离到不同的优化层次会更有效,还是将它们保持在同一层次更好?
为了解决这一问题,本文探讨了三种多目标ASR训练框架,称之为“目标汤配方”(objective soup recipes)。这些框架在不同优化层次应用MOO,以减轻目标之间的潜在冲突。我们基于LibriSpeech和AISHELL v1数据集进行ASR实验,并结合CoVoST v2数据集开展ASR和语音到文本翻译任务的研究,分析高度冲突的目标,并在这三种MOO训练算法中寻找最佳训练配方。
实验结果为多目标ASR训练提供了深入的见解,帮助优化在多语言多任务场景下的目标协调和性能表现,为进一步研究提供了可靠的参考。
Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages
尽管多模态大语言模型(MLLMs)在近期取得了显著进展,其发展仍主要集中于以英语和西方为中心的数据集和任务,导致全球大多数语言和多样化的文化背景未能得到充分代表。本文提出了PANGEA,一种多语言多模态LLM,基于PANGEAINS训练完成。PANGEAINS是一个覆盖39种语言的多样化指令数据集,总量达600万,其中包括:1)高质量的英语指令,2)精心机器翻译的指令,以及3)文化相关的多模态任务,确保跨文化覆盖。
为了严格评估模型的能力,我们提出了PANGEABENCH,这是一套全面的评估工具,包括14个数据集,覆盖47种语言。结果表明,PANGEA在多语言场景和多样化文化背景中显著优于现有的开源模型。我们完全开源了数据、代码和训练后的检查点,以促进包容性和强大多语言MLLMs的开发,从而推动更广泛语言和文化背景的公平性和可访问性。
Data selection and mix
Scaling Laws for Multilingual Language Models
我们提出了一种针对通用解码器语言模型(LMs)的新型扩展规律,该模型基于多语言数据进行训练,旨在解决多语言预训练中语言平衡的问题。在研究多语言扩展时,主要挑战在于跨语言迁移会干扰对单一语言性能的分析。为此,我们将研究重点从单一语言转移到语言族。我们提出并验证了一种假设,即每个语言族的测试交叉熵损失仅由其自身的采样比例决定,与混合数据中的其他语言无关。该发现简化了多语言扩展的复杂性,使分析能够扩展到任意数量的语言。
基于这一假设,我们推导出一种幂律关系,将性能与数据集大小、模型规模以及采样比例联系起来。该关系允许我们预测上述三种因素不同组合下的性能,并在不同模型规模下推导出最优采样比例。为验证所提扩展规律的有效性和准确性,我们进行了大规模实证研究,训练了超过100个模型,涵盖23种语言和5个语言族。实验结果表明,从小规模模型(85M参数)推导出的最优采样比例能够有效泛化到规模大几个数量级的模型(1.2B参数),从而为大规模多语言语言模型训练提供了一种高效的资源利用方法。
Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models
大语言模型(LLMs)通常因预训练于多语言语料而具备多语言能力。但这些模型是否能够在语言间关联对应的概念,即具备跨语言能力?本研究评估了六种最先进的LLMs在内在跨语言任务中的表现。研究发现,这些模型在机器翻译和嵌入空间分析等表层跨语言能力方面表现出色,但在更深层次的跨语言知识迁移上表现乏力,揭示了在通用(如MMLU基准)和领域特定(如《哈利波特》问答)任务中的跨语言知识障碍。
由于简单的推理时缓解方法仅能带来有限的提升,我们提出对LLMs进行混合语言数据的微调。即使使用诸如WikiText等域外数据集进行微调,该方法也能有效缩小性能差距。研究结果表明,解锁LLMs的完整跨语言潜力需要明确的优化策略。
Multilingual Arbitrage: Optimizing Data Pools to Accelerate Multilingual Progress
合成数据的使用在近年来的技术突破中起到了关键作用。然而,仅依赖单一的教师模型进行数据生成可能导致模型坍塌和偏差传播等问题。在多语言场景中,这些问题尤为突出,因为没有单一的教师模型能够在所有语言上表现最佳。在本研究中,我们提出了一种基于多语言套利(Arbitrage)的解决方案,通过利用多个模型在不同语言上的性能差异,有针对性地为每种语言选择最优模型。通过将样本战略性地组合到一组在不同语言中各具优势的多样化模型,我们有效地解决了上述问题。
我们对最先进的模型进行了大量实验,结果表明,与仅依赖单一教师模型相比,我们的套利技术显著提升了性能。多语言套利技术在与当前主流专有模型及广泛采用的开源模型(如Gemma 2、Llama 3.1、Mistral v0.3)的对比中,实现了高达80%的胜率。这些提升在我们研究的所有语言中均有体现,尤其是在资源匮乏语言中表现尤为显著。
Enhancing Multilingual Reasoning in LLMs: Insights from Cross-Linguistic Correlations and Optimal Data Proportions
大语言模型(LLMs)通常依赖微调来增强其在多种语言中的推理能力。然而,目前针对多语言推理数据集中的语言比例平衡问题的研究仍然有限。为弥补这一空白,我们系统性地研究了多语言推理数据集中不同语言数据比例对微调性能的影响。研究结果揭示了数据集中语言比例与LLMs微调性能之间的明确关系。
通过使用我们研究中确定的适当语言分布和数据量对多种LLMs进行微调,我们在多语言数学推理以及利用Python代码解决数学问题方面达到了最先进的性能。此外,与现有方法相比,我们的方法显著减少了数据需求和翻译成本,为未来研究提供了宝贵的参考。
Multilingual enhancement
Lens: Rethinking Multilingual Enhancement for Large Language Models
尽管全球对能够服务于多语言用户的大语言模型(LLMs)的需求日益增长,许多最先进的LLMs仍然以英语为中心。这导致语言间的性能差距,限制了非英语用户对先进AI服务的获取。当前提升多语言能力的方法主要依赖数据驱动的后训练技术,例如多语言指令微调或持续预训练。然而,这些方法面临重大挑战,包括高质量多语言数据集的稀缺、多语言能力提升有限,以及偏离目标和核心语言能力灾难性遗忘的问题。
为此,我们提出了Lens,一种通过利用LLMs内部语言表示空间来增强多语言能力的新方法。具体而言,Lens通过操作LLMs顶层的语言无关和语言特定子空间中的隐藏表示来实现增强。以核心语言为枢纽,目标语言在语言无关子空间中被拉近到核心语言,从而继承其成熟的语义表示。同时,在语言特定子空间中,目标语言和核心语言的表示被拉远,使目标语言能够独立表达其特性。
在对一个以英语为中心和两个多语言LLMs进行的大量实验中,Lens有效提升了多语言性能,同时不损害模型原有的核心语言能力。与现有的后训练方法相比,Lens以更少的计算资源取得了更优的结果。
Language Imbalance Driven Rewarding for Multilingual Self-improving
大语言模型(LLMs)在众多任务上已实现了最先进的性能。然而,这些进展主要惠及诸如英语和中文等“第一类”语言,导致许多其他语言被显著低估。这种不平衡不仅限制了LLMs的广泛应用,也自然生成了语言间的优先级排名,为以自我改进的方式提升LLMs的多语言能力提供了机会。因此,我们提出了一个方法,将LLMs内部对主导语言和非主导语言的不平衡作为奖励信号。通过迭代的DPO(Direct Preference Optimization)训练,这种方法不仅提升了LLMs在非主导语言上的表现,还增强了主导语言的能力,从而生成一个持续的迭代奖励信号。
在Meta-Llama-3-8B-Instruct模型上应用两轮该方法的微调,显著提升了多语言性能。在指令跟随和算术推理任务上,分别在X-AlpacaEval排行榜上平均赢率提高了7.46%,在MGSM基准上的准确率提高了13.9%。本研究作为初步探索,为LLMs的多语言自我改进开辟了新路径。
Language Fusion for Parameter-Efficient Cross-lingual Transfer
由于多语言文本语料库的有限性,训练语言模型时常导致除了英语以外的语言在下游任务中的表现不佳,这是因为这些语言的表示空间训练不足。这种“表现不足”促使了最近的跨语言迁移方法,借助英语表示空间,例如通过在输入中混合英语和“非英语”token或扩展模型参数以容纳新语言,但这反过来增加了计算复杂性。为了解决这个问题,我们提出了一种名为FLARE (Fusion for Language Representations) 的方法,旨在通过适配器来改善英语以外语言的表示质量和下游任务表现。
FLARE通过在低秩LoRA适配器的瓶颈部分,利用轻量级线性变换将源语言和目标语言的表示进行融合。这保持了参数的高效性,因为该方法不需要额外的参数,同时提高了迁移表现,进一步缩小了与英语的表现差距。此外,所提出的潜在表示融合并不会增加输入token的数量,从而保持了计算效率。此外,FLARE还提供了灵活性,可以集成多种类型的表示,例如我们展示了将从机器翻译模型提取的潜在翻译进行融合的可能性。
Mechainism Interpretation
Is Knowledge in Multilingual Language Models Cross-Lingually Consistent?
很少有研究探讨多语言模型中嵌入的事实知识的变化性和跨语言一致性。然而,跨语言一致性应当被纳入考虑,以评估跨语言的迁移能力、保持模型知识在多语言中的事实性,并维护语言模型性能的一致性。因此,我们关注于分析、评估和解释事实知识的跨语言一致性。我们应用可解释性方法分析模型在跨语言上下文中的行为,发现多语言模型在一致性上表现出不同的水平,这些水平受到语言族或语言学因素的影响。此外,我们还发现跨语言一致性瓶颈出现在模型的中间层。
为了解决这一问题,我们尝试了词汇扩展、额外的跨语言目标以及从单语输入中添加偏差等方法。我们发现,所有这些方法在一定程度上都能提升跨语言一致性,其中跨语言监督提供了最佳的改善效果。
The Rise and Down of Babel Tower: Investigating the Evolution Process of Multilingual Code Large Language Model
大语言模型(LLMs)展现出显著的多语言能力,但这些能力在预训练过程中是如何发展的机制尚不清楚。本文以代码LLMs为实验平台,探索LLMs在预训练过程中多语言能力的演化过程。基于观察,我们提出了巴别塔假说(Babel Tower Hypothesis),该假说描述了LLMs获取新语言能力的完整过程。在学习初期,多种语言共享一个由主要语言主导的统一知识系统,并逐渐发展出语言特定的知识系统。
我们通过特定方法跟踪LLM的内部状态,验证了上述假说。实验结果表明,LLM内部状态的变化与巴别塔假说一致。基于这一发现,我们提出了一种优化多语言代码LLMs预训练语料的新方法。与原始语料训练的模型相比,采用优化语料训练的模型表现显著提升。巴别塔假说为设计预训练数据分布以实现LLMs的最佳多语言能力提供了新的视角。
Qualifying Knowledge and Knowledge Sharing in Multilingual Models
预训练语言模型(PLMs)展现出显著的事实知识编码能力。然而,这些知识是如何存储和检索的机制仍不清晰,这对AI的可解释性和安全性具有重要意义。在本文中,我们解构了知识的多方面特性:完成知识检索任务(例如,“法国的首都是__”)需要掌握基础概念(例如,法国、巴黎)、这些概念之间的关系(例如,首都的关系)、以及查询语言和提示结构。我们提出将这些不同的知识层面区分开来,并基于此类型学对神经元级别的知识归因技术进行批判性分析。
为具体说明,我们聚焦于Dai等人(2022)提出的知识神经元(Knowledge Neurons, KNs),在多个PLMs中测试了10种自然语言和一些非自然语言(例如Autoprompt)。我们的主要贡献包括:(i) 证明了KNs具有不同的作用类型,有些确实编码了实体级概念,而有些则表现出更为复杂和多义的角色;(ii) 揭示了KNs在多达10种语言中存在前所未有的重叠,表明可能存在一个部分统一的、语言无关的检索系统。
为此,我们引入并发布了mParaRel数据集,这是ParaRel的扩展版,包含针对填空式知识检索任务的多语言提示和释义,覆盖10种语言并支持并行研究。
The Same but Different: Structural Similarities and Differences in Multilingual Language Modeling
我们利用机械可解释性的新工具,探究大语言模型(LLMs)的内部结构是否与其训练语言中蕴含的语言结构相对应。具体来说,我们提出以下两个问题:(1) 当两种语言使用相同的形态句法过程时,LLMs是否通过共享的内部电路来处理它们?(2) 当两种语言需要不同的形态句法过程时,LLMs是否通过不同的内部电路来处理它们?
基于英汉双语和单语模型,我们分析了两项任务中涉及的内部电路。研究发现,模型会使用相同的电路来处理相同的句法过程,而这种情况独立于该过程所使用的语言,甚至在完全独立训练的单语模型中也能观察到。此外,我们发现,多语言模型会在需要时使用语言特定的组件(如注意力头和MLP)来处理仅存在于某些语言中的语言学过程(例如形态标记)。
这些结果表明,LLMs在处理多语言建模任务时,能够在利用共同结构和保留语言差异之间进行权衡。研究为理解LLMs在多语言建模中的机制提供了新的见解,并揭示了它们如何协调语言间的共性和差异性。
Multilingual alignment
Language Model Alignment in Multilingual Trolley Problems
我们评估了大语言模型(LLMs)在多语言电车难题中与人类偏好的道德一致性。基于“道德机器”(Moral Machine)实验——该实验收集了来自200多个国家超过4000万次人类判断——我们构建了一个包含100多种语言的跨语言道德困境语料库,名为MultiTP。这一数据集支持在多种语言背景下评估LLMs的决策过程。
我们的分析探讨了19种不同LLMs与人类判断的一致性,涵盖六个道德维度:物种、性别、健康状况、社会地位、年龄以及涉及生命的数量。通过将这些偏好与语言使用者的人口分布相关联,并检验LLMs在面对不同提示措辞时的响应一致性,我们的研究揭示了LLMs在跨语言和伦理偏好上的表现及其交集。结果显示,各语言间的一致性存在显著差异,挑战了AI系统中道德推理统一性的假设,同时突出了在AI伦理中融入多元化视角的重要性。
我们的研究结果强调了在负责任AI研究中整合多语言维度的必要性,以确保AI在全球范围内实现公平且平等的互动。这也为未来研究如何减少AI在跨语言与道德推理中的偏差提供了重要方向。
Vocabulary-related
Adapters for Altering LLM Vocabularies: What Languages Benefit the Most?
词汇适配技术通过将新词汇融入预训练语言模型(LMs),实现对新语言的扩展,并缓解词语过度切分的问题。然而,现有方法常依赖启发式规则或外部嵌入,存在局限性。为此,我们提出了一种名为VocADT的新方法,通过适配器模块实现词汇适配。这些模块被训练为学习现有嵌入的最优线性组合,同时保持模型权重不变。VocADT 提供了一种灵活且可扩展的解决方案,无需依赖外部资源或特定语言限制。
在涵盖不同书写系统、资源可用性及切分程度的11种语言上,我们的实验表明,VocADT 在多项多语言任务中表现优于原始 Mistral 模型及其他基线方法。实验发现,使用拉丁字母的语言和高度切分的语言从词汇适配中获益最多。此外,我们将适配后的模型用于机器翻译的生成任务,结果显示,经过微调后词汇适配仍然有显著作用,而 VocADT 是最有效的方法。
这些结果表明,VocADT 不仅能够改善多语言模型的性能,还为解决跨语言任务中的词汇适配问题提供了新的视角。
Unifying Vocabulary of Large Language Model with Statistical Token-level Alignment
大语言模型(LLMs)在许多通用任务中取得了巨大的成功,但不同词汇表之间的不匹配限制了其在诸如基于token的蒸馏和不同模型推理等进一步应用中的效果。为了统一LLMs的词汇表,我们提出了一种简单而有效的方法——UnifyVocab,该方法能够以较低的成本替换LLM的词汇表。
首先,我们设计了一种新的词汇表对齐方法,将源词汇表与目标词汇表对齐。接着,我们重新排列相应的参数(如嵌入层),并逐步对模型进行微调。实验结果表明,UnifyVocab在多个参数规模的模型上均展现出了良好的效果和泛化能力,其成本仅为10B token,且能够恢复原始模型98.02%的性能。
我们进一步发现,统一词汇表显著促进了token级别的蒸馏,并显著提升了模型性能(+4.4%),仅需使用235M tokens。此外,我们的方法为LLMs的多语言词汇初始化提供了更好的起点,能够帮助模型适应新语言。
这一方法有效地解决了不同词汇表之间的差异问题,提供了一个在模型间实现更好对齐的实用方案,有助于提升LLMs在多种任务中的表现。
MrT5: Dynamic Token Merging for Efficient Byte-level Language Models
依赖子词分词的模型存在显著缺点,例如对字符级噪声(如拼写错误)的敏感性,以及不同语言和脚本之间压缩率的不一致性。尽管像ByT5这样的字符或字节级模型尝试解决这些问题,但它们并未广泛采用——直接处理原始字节流而不进行分词会导致序列长度显著增加,从而使训练和推理变得低效。本研究介绍了MrT5 (MergeT5),它是ByT5的更高效变体,通过在其编码器中集成一个token删除机制来动态缩短输入序列长度。在经过固定数量的编码器层处理后,学习到的删除门控(delete gate)决定哪些token被删除,哪些token被保留供后续层使用。MrT5有效地“合并”了从删除token中提取的关键信息,利用剩余token的上下文信息形成更紧凑的序列。
在继续预训练实验中,我们发现MrT5能够显著提升推理运行时,而对性能的影响最小。当在英语文本上训练时,MrT5展示了零-shot迁移删除特性到其他语言的能力,经过多语言训练后进一步提升了性能。此外,MrT5在XNLI和字符级任务等下游评估中与ByT5相当,同时减少了最多80%的序列长度。我们的研究提出了一种解决现有字节级模型实际局限性的方法。
Topic-XICL: Demonstration Selection with Topic Inference for Cross-lingual In-context Learning
大语言模型(LLMs)在许多通用任务中取得了巨大的成功,但不同词汇表之间的不匹配限制了其在诸如基于token的蒸馏和不同模型推理等进一步应用中的效果。为了统一LLMs的词汇表,我们提出了一种简单而有效的方法——UnifyVocab,该方法能够以较低的成本替换LLM的词汇表。
首先,我们设计了一种新的词汇表对齐方法,将源词汇表与目标词汇表对齐。接着,我们重新排列相应的参数(如嵌入层),并逐步对模型进行微调。实验结果表明,UnifyVocab在多个参数规模的模型上均展现出了良好的效果和泛化能力,其成本仅为10B token,且能够恢复原始模型98.02%的性能。
我们进一步发现,统一词汇表显著促进了token级别的蒸馏,并显著提升了模型性能(+4.4%),仅需使用235M tokens。此外,我们的方法为LLMs的多语言词汇初始化提供了更好的起点,能够帮助模型适应新语言。
这一方法有效地解决了不同词汇表之间的差异问题,提供了一个在模型间实现更好对齐的实用方案,有助于提升LLMs在多种任务中的表现。
Model merging and pruning
Investigating Language-Specific Calibration For Pruning Multilingual Large Language Models
近年来,大语言模型(LLM)剪枝技术在无需重新训练的后训练环境中实现了最先进的压缩效果,同时保持了较高的预测性能。然而,以往的研究主要基于英语文本进行校准,忽视了现代LLMs的多语言特性及其在非英语环境中的广泛应用。本文旨在探讨为单语言应用校准多语言模型剪枝的有效性。
我们进行了首个全面的实证研究,比较了不同校准语言对多语言模型剪枝的影响,涵盖多种语言、任务、模型以及最先进的剪枝技术。研究结果提供了实用建议,例如,在目标语言中校准可以有效保留语言建模能力,但未必对下游任务表现有直接帮助。通过对剪枝模型的潜在子空间、剪枝掩码和单个神经元的进一步分析,我们发现剪枝通常能保留较强的语言特定特征,但可能无法完全保留语言特定的神经元激活模式以及与复杂任务相关的知识和推理的语言无关特征。
这一研究为多语言LLM剪枝的优化和应用提供了重要的见解。
Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement
合并大语言模型(LLMs)的目标是将多个同源的LLM融合为一个综合具备所有能力的模型。理想情况下,任何共享相同骨干架构的LLM都应该可以被合并,无论它们是经过微小参数调整的微调(FT)模型,还是经历显著参数变化的预训练(PT)模型。然而,现有方法通常需要手动设定模型的重要性,这使得它们仅适用于参数变化范围相近的模型(例如多个FT模型)。对于FT和PT模型之间参数变化幅度较大的情况,这些方法在经验上难以确定最佳组合方案。
本文首次尝试将合并技术从FT模型扩展到PT模型。我们首先分析现有方法在合并FT和PT模型时的效果,发现它们难以处理PT模型。随后,我们提出了一种基于权重解耦(WeIght DisENtanglement, WIDEN)的方法,成功扩展了合并技术的适用范围。该方法首先将模型权重解耦为幅度和方向两部分,并通过考虑两者的贡献进行自适应融合。
在实验中,我们将Qwen1.5-Chat(一种具备指令跟随能力的FT模型)与Sailor(一种具备多语言能力的PT模型)在7B和14B模型规模上进行合并。实验结果表明:
-
现有方法在合并Sailor时通常失败,要么两种能力都丢失,要么仅保留指令跟随能力;
-
WIDEN成功将Sailor的多语言能力注入Qwen1.5-Chat,使其在东南亚语言上表现优异,并提升了基础能力。
此外,我们还尝试合并多个13B的FT模型,发现WIDEN可以实现指令跟随、数学推理和代码生成能力的平衡融合。上述研究表明,WIDEN能够有效扩展模型合并的能力,为多功能LLM的开发提供了新的工具和思路。
Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models
模型合并,如模型合成,是指将具有相同架构的不同模型合并在一起,而无需进一步训练。在这项工作中,我们提出了一种新的模型合并方法,解决了在目标任务的非英语语言中微调大语言模型(LLMs)的困难,特别是当缺少特定任务数据时。我们专注于数学推理任务,在没有语言内数学数据的情况下,通过组合语言和数学能力来促进跨语言迁移。
从相同的预训练模型开始,我们分别在数学指令数据(英语)和通用指令数据(目标语言)上微调两个“专家”模型。然后,我们直接用语言专家的层替换数学专家的顶部和底部变换器层,这样就能在目标语言中增强数学推理能力。最终的合并模型在数学基准测试MGSM上,比单独的专家和其他合并方法提高了10%,适用于四种主要语言,其中数学指令数据稀缺。
此外,这种层交换方法简单、经济且直观,基于对每个专家微调过程中最重要参数变化的解释性分析。通过这种方式成功地重新组合LLMs以实现跨语言迁移,为将来将模型专长结合、创建模块化解决方案并跨语言迁移推理能力提供了新的可能性,且这一切都是在后期完成的。
(文:机器学习算法与自然语言处理)