多年来,研究人员一直在广泛探究如何有效地利用循环模型和注意力机制,其中循环模型旨在将数据压缩到固定大小的记忆(称为隐状态)中,而注意力机制允许处理整个上下文窗口,捕捉所有 token 的直接依赖。不过,更准确的依赖建模往往伴随着二次成本,导致模型只能处理固定长度的上下文。因此,谷歌提出了一种新的长期神经记忆模块(neural memory module),它能够学习记忆历史上下文,并帮助注意力机制在利用过去已久信息的同时处理当前上下文。结果表明,这种神经记忆具有快速并行化训练的优势,同时还能保持快速推理。从记忆的角度来看,谷歌认为注意力机制虽然受限于上下文但可以更准确地建模依赖关系,因此可以起到短期记忆的作用;而神经记忆能够对数据进行记忆,起到了长期、更持久的记忆作用。基于这两个模块,谷歌引入了一个全新的系列架构 —— Titans,通过三种变体有效地将记忆融合到该系统架构中,它们分别是记忆作为上下文(Memory as a Context,MAC)、记忆作为门(Memory as a Gate,MAG)和记忆作为层(Memory as a Layer,MAL)。在语言建模、常识推理、基因组学和时序预测任务上的实验结果表明,Titans 架构比 Transformer 和近年来的现代线性循环模型更有效。另外,在大海捞针(needle-in-haystack)中,Titans 架构能够有效地扩展到超过 200 万 tokens 的上下文窗口,并且比基准模型实现了更高的准确性。