ICLR 2025 让大模型更懂时序的语境对齐来了!性能更优开销更低

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

大语言模型在迅速发展的同时,也展现了其在下游任务中的卓越性能,这主要得益于丰富多样的大型语料训练库,使大语言模型掌握了一定的跨领域、跨任务的知识。

近两年,越来越多的研究工作利用预训练的大语言模型来构建时间序列分析模型。通过微调大语言模型,使其能够理解陌生的时序数据,进而激活其在时序分析任务中的能力。
近期,来自东方理工大学、香港理工大学和上海交通大学的研究团队提出了一种新的模态对齐范式 —— 语境对齐(Context-Alignment)。该方法将时间序列数据对齐到大语言模型熟悉的语言环境中,帮助模型更好地理解时间序列,从而激活其在时序分析方面的能力。该论文已被 ICLR 2025 会议接收。

  • 论文标题:Context-Alignment: Activating and Enhancing LLMs Capabilities in Time Series
  • 论文链接:https://openreview.net/forum?id=syC2764fPc
  • 代码链接:https://github.com/tokaka22/ICLR25-FSCA
以往的微调方法往往依赖于一个词库,通过各种方式将时序数据的 token 嵌入与词库中的词汇(例如 rise、fall、periodic、short 等)的 token 嵌入进行对齐,也就是说将大语言模型陌生的时序数据嵌入转化为其熟悉的语言嵌入。此前研究希望通过这种「词对齐」的方式帮助大语言模型理解时序数据,进而激活其在时序分析上的能力。

然而,这种依赖词库的对齐方式通常需要较大的计算开销,且是否能有效地帮助大语言模型理解时序数据还有待商榷。
语境对齐(Context-Alignment)
本文指出,大语言模型在处理语言时的能力更多源于其对语言逻辑和结构的深刻理解,而不仅仅是对词汇模式的表面对齐。因此,作者认为,即使使用精准的词汇来表达冗长的时间序列数据,这种方式也只是大量词汇嵌入的堆叠,缺乏语言的逻辑和结构,使得大语言模型难以真正理解其中的含义。

本文中,作者基于语言学中关于逻辑结构的层次关系,提出了语境对齐范式(Context-Alignment)。他们希望将时间序列数据融入自然语言的语境中,使大语言模型能够将时序数据整体视为一个语言成分,并通过上下文自主地理解时间序列
双尺度语境对齐图结构
考虑到图结构往往可以很好地表达逻辑和结构的关系,作者在时序数据和自然语言 prompt 的多模态输入上构建了双尺度图结构,以实现语境对齐。

具体来说,作者利用双尺度的图节点来描述语言结构的层次划分,在保证信息不丢失的前提下,将冗长的时序数据表达为一个整体,这就好像英语中的宾语从句,从句整体充当了一个语言成分,冗长的时序数据也应该被视为输入中的一个整体成分。利用有向边表达时序和 prompt 输入之间的逻辑关系。从而将时序数据对齐到大语言模型熟悉的语境中。
双尺度图结构包括细粒度图结构粗粒度图结构,其中:

  • 细粒度图结构将每个 token 视为一个节点,强调 token 之间的相互独立性,保留时序的具体信息。通过两个线性层(如图 1 中所示的),将连续且冗长的时序数据嵌入和 prompt 嵌入分别映射为两种粗粒度节点。

  • 粗粒度图结构将连续的、模态一致的 tokens 映射为一个节点,表示了模态的整体性。

根据 prompt 的内容,在粗粒度和细粒度图中构建表示逻辑关系的有向边(有向边表示信息的传递方向)。例如,当 prompt 为「predict future sequences using previous data」时,有向边由表示「previous data」的时序节点指向 prompt 节点,因为时序数据是 prompt 的信息来源。粗粒度有向边是细粒度有向边的简化。
双尺度图结构显式地体现了时序数据和自然语言 prompt 之间的语言层级结构和逻辑传递关系。粗粒度图结构和细粒度图结构在经过图卷积网络(GCN)对节点嵌入进行更新后,通过一个可学习的交互机制(根据图 1 中的和分配矩阵计算,参考原文公式 4),使粗粒度节点能够向细粒度节点传递更新后的信息,细粒度节点在完成自己的更新后整合来自粗粒度节点的信息。最后,粗粒度节点和细粒度节点嵌入将分别输入预训练的大语言模型。

就其效果而言,该双尺度图结构可以嵌入至大语言模型的任意层,并可多次使用,以强化大语言模型对语境对齐的记忆能力。
图 1 双尺度语境对齐图结构
VCA 和 FSCA
由于不同的 prompt 内容对应不同的逻辑结构关系,因此双尺度语境对齐图结构依赖于具体的 prompt 内容。作者提出了两种使用双尺度语境对齐图结构的具体方法。
1. Vanilla Context-Alignment(VCA)
VCA 是最直接的实现方式,其输入模式为时序数据 + prompt。例如,在预测任务中,prompt 为「predict future sequences using previous data」,其图结构如图 1 中的 VCA 所示。在分类任务中,输入为「时序数据 + Predict category using previous data」,其图结构与预测任务相同。VCA 利用最简单直接的 prompt,通过双尺度图结构实现语境对齐。
2. Few-Shot Context-Alignment(FSCA)
FSCA 是 VCA 的进阶版本,结合了 Few-Shot prompting 技术以进一步提升性能。该方法的输入包括例子 + 时序数据 + prompt。在预测任务中,prompt 依然为「predict future sequences using previous data」,但需要将原始历史时序数据分成两部分构建一个例子:前半段数据作为后半段数据的历史输入,后半段数据作为利用前半段数据预测的 ground truth。这一示例有助于大语言模型更好地理解预测任务。其图结构如图 1 中的「FSCA in TS Forecasting」所示。

图 2 展示了 FSCA 作为一个即插即用的模块被引入到预训练的大语言模型中进行微调。在分类任务中,FSCA 需要抽取一组时序数据和其对应的标签构成一个固定的例子,再进行分类预测。其图结构如图 1 中的「FSCA in TS Classification」所示。
图 2 利用 FSCA 进行时序预测
主要实验结果
各种任务上的表现
该研究展示了长期预测、短期预测、Few-Shot 预测、Zero-Shot 预测以及分类任务的实验结果。

实验表明,FSCA 在多个任务中均取得了更优的性能。尤其在 Few-Shot 预测和 Zero-Shot 预测中,FSCA 分别超越次优方法 6.7% 和 13.3%。FSCA 在 Few-Shot 和 Zero-Shot 预测任务中的出色表现表明,双尺度图结构成功引入了基于逻辑结构的先验知识。这进一步验证了正确的结构划分和逻辑引导对于大语言模型(LLM)理解时序数据的重要性。
表 1 长期预测结果对比
表 2 短期预测结果对比
表 3 Few-shot 预测结果对比
表 4 Zero-shot 预测结果对比
图 3 分类结果对比
计算效率对比
所提出的 FSCA 在计算效率方面仅次于 GPT4TS(该方法仅在 LLM 的输入和输出阶段加入了线性层)。

相比之下,其他流行方法在实现词 token 对齐时往往需要付出较大的计算代价。此外,这些方法通常包含额外的操作。例如,Time-LLM 在每次迭代中都会重复生成提示并检索相应的嵌入,进一步增加了计算开销。
相较而言,FSCA 中的双尺度 GNN 仅引入了两个可学习矩阵,以及两个用于将细粒度节点嵌入转化为粗粒度节点嵌入的可学习线性层。这些操作本质上是简单的矩阵计算,极大地降低了计算复杂性。因此,FSCA 在计算效率上显著优于以往基于词 token 对齐的方法,在保证性能提升的同时有效减少了计算资源的消耗。

总结
综上所述,本文首次提出了语境对齐(Context-Alignment)的概念,并基于双尺度图网络结构和 Few-Shot prompting 技术设计了 FSCA 模型。与以往流行的基于词 token 对齐的方法相比,FSCA 在实现更优性能的同时显著降低了计算开销。此外,原文还提供了更为详尽的消融实验、分析实验和对比实验结果,全面验证了 FSCA 的有效性和优势。
© 

(文:机器之心)

欢迎分享

发表评论