AI Agent 发展史:从 RL 驱动到大模型驱动 |AIR 2025

↑ 点击蓝字 关注极市平台
作者丨AI科技评论
来源丨AI科技评论

极市导读

 

从 Agent 前沿研究中一窥复制 Manus 的启示。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

Manus 的出现将智能体推入当下 AI 格局的前列,使得这个过去略抽象的概念变得具体可感知。然而行业中也不乏对 Manus 的争议,认为 Manus 没有底层技术创新力,更多的是将现有技术融合从而在工程上创新,即所谓的“套壳”。

虽说工程创新也是一种护城河,但“套壳”的说法也并非完全没道理。近几年的时间里,学界和业界关于 Agent 的技术和实践成果颇丰。在 AI 智能体推理与决策研讨会(AIR 2025)上,来自伦敦大学学院、新加坡南洋理工大学、Weco AI、Google DeepMind、Meta、华为、阿里等多位学术界和工业界的研究人员围绕强化学习、推理决策、AI 智能体展开讨论。

新加坡南洋理工大学的安波教授揭示了从基于强化学习的智能体到由大型语言模型驱动的智能体的演变,分享了团队多项关于 Agent 的工作进展,其中 Q* 算法以多步骤推理作为审慎规划,在学习 Q 值模型的过程中,需要经历离线强化学习以交替更新 Q 值标签并拟合 QVM、使用表现最佳的回滚轨迹的奖励、使用与更强大 LLM 一起完成的轨迹的奖励三个关键步骤。

初创公司 Weco Al 的 CTO Yuxiang 阐述了在解空间中寻找智能的一些时间,介绍了由人工智能驱动的 Agent—— AIDE,能够处理完整的机器和工程任务。如果将机器学习和工程视为一个代码优化问题,那么它就会将整个搜索或代码优化的过程形式化为在解空间中的树搜索。在这个被形式化的解空间中,AIDE 是一个任何大语言模型都可以编写的代码空间。

来自伦敦大学学院的宋研从 DeepSeek 切入,讨论了强化学习在大型语言模型推理中的作用,并指出 DS 又一个“Aha时刻”,即在强化学习阶段,大型语言模型学会了自我纠正,这可能是由于其基础模型已经具备自我纠正的能力。基于此进一步发现,当 Agent 使用某些关键词时,它们会进行各种回溯、自我报告和复杂推理。

谷歌 Deepmind 研究员冯熙栋初步阐述了将强化学习的组成部分用自然语言描述出来的理念,将会把所有强化学习的概念重新定义为自然语言表示的内容,尝试将策略、值函数、贝尔曼方程、蒙特卡洛采样、时间差分学习以及策略改进操作符等,映射到它们的自然语言对应中。

AIR2025 由伦敦大学学院汪军、Meta GenAI 田渊栋等教授联合主办,致力于推动智能系统的发展,使其能够自主、适应性强且负责任地运行(会议详情及注册可访问官网:https://ai-agent-reasoning.com)。本次会议特别鸣谢来自加州大学伯克利分校的博士后研究员顾尚定。

AI 科技评论截取会议部分精彩内进行编译,以下为核心内容的演讲实录:


1

Agent 驱动力变革:从 RL 到 LLM

新加坡南洋理工大学的安波教授做了主题为《From RL-based to LLM-powered Agents》的演讲,揭示了近年来从基于强化学习的智能体到由大型语言模型驱动的智能体的演变,分享了多项关于 Agent 的工作进展。

去年,我们做了一些工作,结合了一个临时模型,以提高其在某些基准问题中的性能。我们的方法是尝试从与环境的交互中学习策略,因此它具有很强的落地能力,所以我想我们在这里尝试结合先验知识的优势,从模型和落地能力中汲取优势,以提高性能。

因为对于这项工作,我们发现利用知识模型可以提高其在某些实际工作场景中的性能。

推理和推断非常重要,尤其是在 OpenAI-o1 和 DeepSeek R1 发布之后,我们有一个纯粹基于自己研究的版本,这确实非常困难。

但事实上,我们在 OpenAI 发布相关模型之前就发布了关于 Q* 的第一篇论文。我们需要一个 G 函数,用于估算从初始状态到当前节点的成本。在我们的工作中,我们使用的 G 函数是通过利用文献中的数据来训练模型的。对于启发式函数(h 值),我们实际上是自己进行了修正。

所以,基于我们的数据,训练这样一个强大的模型有很多方法。最终,我们将这两者结合起来,并应用 A* 搜索算法,以提升大型语言模型的推理能力。

所以,我们早期做了些实验。你可以降低那些数值,因为那时候基础模型还不够强大。我想关键点是,如果你应用这种推理方法,它可以提升基础模型的性能。

然后我们以某种方式训练它们的 Q 值函数。所以,我们还在考虑是否能够克服困难,例如,将这种方法应用于改进最近的 DeepSeek 模型以及其他模型。

所以,我们在比较控制方面也做了一些关于 Synapse 的工作,是我们去年年初发表的成果之一。这些工作涉及一些想法,比如状态抽象训练、从演示中学习,以及使用记忆等方法,来改进计算机控制任务。

我们还提供了一个用于构建通用虚拟Agent的开发者工具包。我们提供了更好的界面,还提供了更强大的前端支持,并且提供了大量的基准测试,用于设计适用于PC控制、计算机控制等场景的通用虚拟Agent,也适用于移动设备的控制。

接下来的这项工作涉及利用语言模型驱动的智能体来玩具有挑战性的电子游戏。

因此,我们构建了一个智能体架构,包括不同的组件,例如我们需要理解环境。它包含一个反思模型、记忆模型、检索模型等,用于应对许多具有挑战性的电子游戏和不同的软件。这个项目是开源的,对于感兴趣的人非常有吸引力。

我们最近做了一些尚未发表的工作,是关于使用强化学习(RL)对语言模型进行微调的。

我想这在某种程度上与一些早期工作有所不同,在我们过去看到的大多数工作中,强化学习并没有涉及智能体。你知道的,人们只是构建不同的组件,使用语言模型作为大脑,并结合其他组件来处理复杂任务。

但在这里,我认为在未来,对于许多现实世界的问题,我们需要强化学习的能力。然而,如果我们想将强化学习应用于这些场景,会面临许多挑战,其中最显著的是探索空间的指数级增长。因为开放和实际动作技能的采样空间会随着矩形的大小和厚度呈指数级增长,因为探索空间是在token级别上的,所以token空间非常庞大。因此,我们需要解决探索问题。同时,我们注意到并非所有token在最终决策动作中都发挥有意义的作用。

所以,我认为我们在这里得到的启示是,我们必须设计一些机制来决定如何进行更有效的探索,以便提高强化学习微调的效率,从而提升语言模型的性能。因此,我们设计了一个名为“CoSo”的方法,它包含几个关键思想。首先,我们使用事实推理来识别对动作至关重要的token。

不是每个token都对智能体最终采取的动作产生影响,或者产生相同的影响。因此,我们使用因果推理来找出这些token,然后利用这些信息来决定如何进行探索。其次,我们可以中断优化过程,将我们的探索集中在那些有影响的token上。

这是利用我们在第一步中学到的结果。然后我们尝试进行了许多实验,可以看到这种方法显著提高了视觉语言模型(VLM)在一些非常具有挑战性的任务中的性能。我认为这还是一项正在进行的工作,例如我刚才提到的创造性工作。


2

在解空间中寻找智能

初创公司 Weco Al 的 CTO Yuxiang 做了题为《AlDE: Searching Intelligence in the Space of Solutions》的分享,阐述在解空间中寻找智能的新思考,介绍了一种由人工智能驱动的强大的 Agent—— AIDE。

我们之所以称之为 AIDE 是因为,它就像一种由人工智能驱动的强大的 Agent,能够处理完整的机器和工程任务。所以,如果将机器学习和工程视为一个代码优化问题,那么它就会将整个搜索或代码优化的过程形式化为在解空间中的树搜索。在这个被形式化的解空间中,它只是一个任何大语言模型都可以编写的代码空间。

你可能见过其他更具体的Agent,比如那些提示 APIAgent 或反应式 Agent,它们将所有历史解决方案组织成树状结构。然后,将所有这些历史解决方案纳入上下文中,但这个过程实际上是递增的。因此,它会迅速积累上下文信息,所以在长期的代码优化过程中,它可能不会表现得很好。

所以,这个问题被重新定义为一个优化问题。机器学习可以在机器中完成,然后我们可以定义所有相关的评估指标。这与我们提出的机器学习工程 Agent 非常契合,其定义的奖励或优化目标也非常简单。我们只是在这个代码空间中进行搜索,目标是优化机器学习代码和机器学习工程任务中的目标函数。这个目标函数可以是验证精度、损失,或者是任何与你的机器学习成本相关的指标。

而代码空间在本例中被非常具体地定义为用于解决该问题的Python脚本空间。好处是我们现在可以在一个公平的指标上比较解决方案,并且使这些依赖于单一标准已知评估的研究方法更加统一,整个搜索过程也会更加稳健。

因此,我们开发了这种算法,它本质上是一个树搜索问题。你从一棵空树开始,首先会生成一个初始节点,实际上是一组基础解决方案。然后,它通过查看现有的代码和现有的解决方案,迭代地提出新的解决方案。这些解决方案已经生成了,然后它会提出你的解决方案,并且基于这个想法,它会生成那段代码,然后运行代码以评估解决方案,并记录新的节点。

这里的评估指标是滚动(scroll),通常在机器学习任务中,这个指标可以是精度(accuracy)、损失(loss)或者随便你怎么称呼它。然后它会根据这个指标选择下一个节点,以便进一步优化。所以,它涉及了所有这些搜索策略、总结操作符以及编码操作符。这些操作符不再完全由算法定义,而是部分由大型语言模型定义。

所以,为了更直观地展示,我们从 S0 开始,这是一个初始的空解决方案,也就是我们的数据状态。我们还没有任何现有的机器学习任务的解决方案,然后它开始起草三个。例如,起草三个方向不同的解决方案。所以在提示中,有一个技巧是我们会明确要求它探索不同的方向,以确保 S01、 S2 和 S3 之间有足够的多样性。然后在下一步,它会选择一个节点开始优化。

例如,尝试不同的步骤来修复问题,如果成功修复了,它就成为一个有效的解决方案。然后这个解决方案就被存储为一个有效的解决方案,此时你有了一个当前最佳节点,比如 S5,然后它开始探索下一个要优化的节点。它会保证每个草拟的解决方案至少被探索一次,并且会从 S2 等节点分别生成另一个改进方案,然后评估为解决方案6或7,这个过程会不断持续,直到用尽所有的优化步骤。

所以最终,选择最优解其实相当简单,因为所有这些解决方案都是用相同的评估指标来评估的。所以,基于评估指标,你就能得到那个最优解。

是什么定义了整个过程呢?有几个关键组件。首先是搜索策略。在这个案例中,我们实际上采用了一个非常简单的热编码策略。

在起草阶段,当它起草多个解决方案时,由于它还没有一棵树,也就是说我们还没有分配初始解决方案,它会创建多个解决方案来探索不同的方法。而在调试阶段,当它进入调试阶段后,它会有一个最大调试步数限制,它会在那个节点停留,直到达到允许的最大调试步数。

通常我们会将这个最大调试步数设置为10到20步,以避免这个Agent花费过多时间在调试上,从而陷入几乎无限循环,浪费大量时间和计算资源。当然,最重要也最有趣的部分并不是什么时候选择一个节点来进行改进。

所以当它完成调试或起草后,就会进入一个阶段,来改进一个桶节点。这只是一个贪婪算法,它会选择树中当前表现最好的解决方案,然后决定进一步优化树中表现最高的那个节点。

所以在编码操作符中,我们也会根据不同的阶段采用不同的提示策略。比如在起草阶段,我们会鼓励它为模型架构和特征工程制定一个计划,并要求它生成一个单文件Python程序来实现这个计划。在底层阶段,Agent会收到错误日志和堆栈跟踪,以识别问题所在。

然后,它会通过保留整体先前的方法来纠正问题。因此,我们确保调试实际上不会改变解决方案本身。在改进模式或改进阶段,我们会提示Agent提出一个原子级别的改变。这是另一个我们希望纳入这个框架的观察结果,即每一步实际上都是可解释的。行动本身是可解释的,并且是原子性的。

因此,我们不允许Agent或大型语言模型一次提出多个改进。相反,我们会提示它逐步、增量地进行改进。在这个过程中,我们不会跳过任何中间步骤的优化想法,这使得它能够进行更细致的探索,并且在整体上更具可解释性。

也就是说,它能够更好地展示出达到最优解的最佳路径是什么。例如,切换优化器、添加一层、使网络变得更深,或者从一种架构转换到另一种架构、添加正则化等。如果你检查它最终生成的树轨迹或树结构,你会发现很多这样的原子优化步骤,而且很多时候这些步骤是非常有洞察力的。

最后,因为一个最大的问题是你需要管理上下文,比如可能需要运行8个步骤。例如,OpenAI运行了500个步骤,即使是Gemini,也没有办法真正处理那么长的上下文。所以,必须有一种方法来管理上下文。这就是我们所说的总结操作符,它会提取相关信息,以避免上下文过载。

总结操作符会包含性能指标,比如当前的准确率、高参数设置和调试阶段的信息。这是非常重要的,尤其是在调试阶段。好处是我们可以截断它之前可以处理的节点数量。

我们可以将总结后的信息放入大型语言模型的上下文中,以生成调试节点或改进节点。这将保持一个几乎恒定的窗口大小,供Agent使用,这使我们能够真正扩展到很长的时间范围,比如对比步骤。

而且,因为我们将其定义为逐步改进,这也使得整个优化操作符变得无状态。它不再依赖于整个轨迹,而是无状态的,不会像提示或上下文大小那样呈爆炸式增长。


3

聚焦通用型 GUI Agent

来自 Huawei London 的邵坤做了主题为《Towards generalist GUl Agents: model and optimization》的演讲,介绍了面向通用型 GUI Agent 的模型和优化。

以下是GUI Agent的演示,他们有不同的任务,比如我们有三个不同的平台。第一个是获取关于美元的研究结果,我们可以从主用户界面页面开始。然后,我们可以执行一些步骤前往麦当劳,进入麦当劳餐厅并搜索那里的薯条,我们还可以设置多个步骤并提高目标。这就是GUI Agent可以帮助我们的地方。

在另一个网站上,GUI Agent 也许可以找到一些更好的解决方案,帮助人类完成这类任务。这就是 GUI Agent 的意义。

从2023年到2025年,你可以看到 GUI Agent 已经广泛流行起来。它重新引发了对Agent研究的关注,无论是学术界还是大型科技公司都在关注GUI Agent。这种关注不仅局限于移动设备,还涵盖了网站和计算领域。

我们还将这些主题引入到 GUI Agent 中,例如第一个是关于生成的。实际上,使用这种模型来指导行动并不好。因此,当我们为GUI Agent提供当前模型能力时,我们有不同类型的改进方法来实现更好的模型。但你必须理解,如何实现,如何为UI设计Pythonian,以及如何设计分层架构。
第二个是关于Agent系统。在我们有了项目模型之后,我们还需要一些其他自动化的模型来提高GUI Agent的性能和效率。为了实现这一点,我们有不同的解决方案,我们可以有数据库规划、反射机制、也可以使用记忆和检索器。
我还想强调的另一个重点是,我们还想做很多关于微调的工作,因为可以说强化学习对于Agent的微调是非常重要的,我们需要某种目的。例如,如何利用当前模型作为评判。如何发挥生成角色模型的作用,以及如何为角色模型进行更好的微调。同时,我们需要找到更好的方法来实现我们高效、可靠且稳健的强化学习训练,并且我们需要找到最适合GUI Agent的算法。
最后一个问题是关于评估的。当设计不同的基准任务时,对于两个Agent来说评估非常重要,我们需要设计评估指标。
同样,我们也提出一些研究问题。
第一个问题是,我们需要找到并提出一个基准测试。因为目前我们可以看到很多关于GUI Agent的论文。所以我们需要设计一个全面的基准测试,它可以用于不同的应用程序,以及不同的Agent。因此,当你找到一个用于评估Agent的流程时,它不仅仅依赖人工干预。
第二部分是,我们需要设计一个行动模型。众所周知,如果我们仅仅使用当前的基础模型来执行Agent任务,那么我们需要找到一些方法来训练出性能良好且高效的模型。
最后一个问题是关于如何为GUI Agent进行高效的强化学习微调。我们必须让Agent能够充分利用有限的数据,并逐步提高性能。对于GUI Agent来说,进行微调并不是一件容易的事,因此我们还需要找到一些方法来解决这个问题。

4

DeepSeek 强化学习的“Aha时刻”
来自 UCL 的宋研 ,做了主题为《The Power of Reinforcement Learning in LLM Reasoning》的演讲,讨论了强化学习在大型语言模型推理中的作用。
这是R1-zero的结果,它的基准测试结果非常好,甚至比OpenAI的o1还要出色。更令人印象深刻的是,它的训练过程非常稳定。而且它在扩展性方面表现出色。对于R1-zero来说,它在过去的准确率方面并不比最新的原始版本更好。但当你尝试生成内容时,它显然能够产生更好的结果。
还有他们在论文中提到的一个“Aha时刻”。在强化学习阶段,语言模型学会了增加思考预算。这可能是因为你需要更多的token来进行思考,从而解决一些难题。这一观点得到了一些支持。他们发现,当Agent使用某些关键词时,它们会进行各种回溯、自我报告和复杂推理。
但对此也有另一种可能的解释。首先,基础模型本身已经具备自我纠正的能力。所以,从技术角度来看,这并不是一个非常“Aha”的时刻,而是表明强化学习确实可以在简单的设置下发挥作用。我认为这才是最重要的。
对于R1版本,他们使用初始数据开始训练,然后在强化学习(RL)的场景中进行训练。结论是,大型语言模型(LLM)具有强大的能力,能够进行稳定的强化学习,而小型语言模型则采用知识蒸馏的方式进行训练。
在R1发布之后,我们在后续的训练和增量更新中推出了TinyZero,这是一个30亿参数的大型模型。此外,SimpleRL是在70亿参数的LLM上实现的Zero-RL。所以,所有这些工作都使用了Zero-RL。至少基本的想法是,你需要有一个强大的基础模型,以便能够学会推理。下一步是它们可以学会探索,然后它们可以学会自我纠正。
最近也有一些多模态的Zero-RL工作。这些工作基于Open-R1代码库、OpenRLHF代码库或Verl代码库。
我们也在小规模上进行了一些实验。基本设置是我们尝试在数学问题上进行训练,选择的难度等级为三到五,这与SimpleRL之前的代码库设置相同,我们发现这相当重要。我们需要进行筛选,而我们是在Qwen2.5-Math-7B上进行的。
其性能表现良好,如图所示。蓝色线条表示从基础模型开始的强化学习,它能够推广到AIME2024,这非常难以解决。但它仅在数学问题上进行训练,通过使用监督微调数据,它可以在GSM8k上获得更好的性能。但在AIME2024上,它给出的结果非常糟糕。这意味着,监督微调数据可能会损害强化学习带来的泛化能力。
我们还在LLaMA上进行了实验,但结果并不理想。
接下来,Yan Song 也分享一些最近工作中的前瞻见解。

5

自然语言强化学习新范式

来自 UCL、Google Deepmind 的冯熙栋探讨了《Natural Language Reinforcement Learning》,介绍了把强化学习的组成部分用自然语言描述出来的理念。
如果我们有了新的强化学习范式,那会怎样?如果我们不学习已经确定的值函数,而是学习语言值函数呢?也就是说,我们尝试用自然语言来描述状态的值、描述状态-动作对。为什么不干脆把所有强化学习的组成部分都用语言表达出来呢?这正是我们最近努力的方向。
我们是从传统的强化学习概念中汲取灵感,但我们正在将所有这些强化学习的概念重新定义为自然语言表示空间中的内容。我们尝试将策略、值函数、贝尔曼方程、蒙特卡洛采样、时间差分学习以及策略改进操作符等,映射到它们的自然语言对应中。
这里我展示了一个这样的例子。在强化学习中,你有一个策略,它是分布式的。但在自然语言强化学习中,你可能会有一个语言策略。也就是说,你不一定需要直接将你的状态和动作映射过去。相反,你可以尝试说:“我先对状态进行一些分析,然后再采取行动。”所以,让我们用语言策略来响应。
在传统的强化学习中,你有标量奖励,即即时奖励。但在自然语言强化学习中,你可能会有语言反馈,比如“你达到了目标”,这不仅仅像传统强化学习中的+1奖励,它可以包含更丰富的信息。
在状态方面,你不需要是一个高维状态,你也可以用语言来描述状态。例如,你可以这样说“你正在滚动……”之类的内容。对于值函数,在强化学习中,我们过去习惯于使用预期的累积奖励。但现在,我们可以有一个更自然的语言表示。我们可以尝试用语言描述符来总结未来的轨迹,最终,还有贝尔曼方程。
传统的贝尔曼方程试图衡量当前状态与其后续状态之间的关系。我们也可以在自然语言评估中做类似的事情。如果你试图评估当前的状态,那么你的当前状态评估不可能与后续状态评估相差甚远。因此,你的自然语言评估必须在连续状态之间具有一致性、自我一致性。所以,这也是贝尔曼方程,但它发生在自然语言空间中。
同样地,我们可以尝试将传统的蒙特卡洛采样和时间差分学习方法映射到自然语言中。假设我们有两种语言聚合器 G1 和 G2 。在传统的蒙特卡洛方法中,我们通过采样大量的轨迹来估计其折扣奖励的累积和,并试图通过计算这些轨迹的平均奖励来估计我们的轨迹。
在自然语言中,我们也可以做类似的事情。我们从时间步 (t+1) 开始采样,直到无穷大。我们有很多基于语言的几何采样结果,并且假设我们有一些语言信息聚合器,因为当然,我们不能对语言进行求平均或求和操作,因为它们不是数字。但如果有一个语言聚合器,我们可以要求它从这些不同的采样语言轨迹中总结和聚合信息。
G1 可以负责从多个轨迹中聚合评估结果,并将所有步骤聚合到一个项目中。这在物理上是完全相同的事情,只是发生在不同的空间中。因此,我们需要在传统强化学习中实现不同的聚合操作符。在传统强化学习中,它是平均值;在基于语言的案例中,它只是一个语言聚合器。
对于时间差分学习也是如此。时间差分学习的理念是,如果你试图评估当前状态的值,你可以向前迈出一步,并将即时奖励与未来状态评估结果结合起来,以形成你对当前状态的评估。
在自然语言强化学习中,我们也可以做完全相同的事情。假设我们有 G1 和 G2 这两个语言聚合器, G2负责将即时奖励和未来评估结果合并。我们可以让 G2 接收即时转换的描述和未来状态评估结果,并让 G1 负责从多个轨迹中聚合评估结果。虽然在传统强化学习和自然语言强化学习中,它们的实现方式不同,但理念是相似的。你可以通过不同的聚合器看到我们的新语言时间差分学习是如何响应传统时间差分学习的。
阐述完概念之后,Xidong Feng 也谈了这种方法的具体实现,给出了如何利用大型语言模型(LLMs)实现自然语言强化学习(NLRL)的几条路径。

6

Qwen长文本能力:更快速度、更低成本
阿里通义千问的林俊旸做了题为《Qwen: Towards Generalist Models》的演讲,系统介绍了通义千问在技术、工程化方面的进展,以下是关于通义千问大模型在数据量方面的细节。
在Qwen2.5版本中,数据量扩展到18T。但现在我们正在考虑用更多的token进行训练,比如30万亿到40万亿个token。这只是一个很大的数量,但对于训练大型模型来说很重要,不仅需要高质量的数据,还需要大量的数据。这就是为什么我们在进行多阶段预训练,因为你需要训练大量的数据。但数据中有脏数据,在第一阶段,然后是更高质量的,再到不同阶段的更高质量。
在模型规模方面,我们开源了7种不同规模的模型,范围从0.5B到72B。因此,你可以通过这些不同规模的模型来研究扩展规律。但目前我们讨论的是密集型模型,我们现在正在考虑MoE(Mixture of Experts)模型,它与密集型模型有些相似,但在训练和内存模型方面有更多的技术细节,但总体上它仍然遵循扩展规律。
在扩展模型规模方面,不仅仅是模型本身的规模,还有激活参数的规模。还有一种扫描方式,但模型规模门控实际上已被证明是非常有效的。我们的开源模型中有许多细节,你可以去查看这些细节。
在上下文长度扩展方面,这也是我们之前非常关注的一个问题。人们之前训练的模型上下文长度为 32K tokens 然后扩展到 128k tokens token。真的有这么长吗?但你甚至可以将其扩展到甚至1000万,这也是有可能的。现在人们正在考虑转向无限长度,所以他们希望使用类似传统的多头注意力机制来实现。也许线性注意力是未来的发展方向,但在这一领域我们还没有取得重大突破。
但我们有一些技术可以将其进一步扩展,而无需进一步训练。这是一种无需训练的技术,称为 Trunk Attention(截断注意力),你可以查看 Trunk Attention 的技术报告。
我们团队在ICML上发表了一篇相关论文,还有另一个技术问题是在部署方面。拥有100万上下文token的模型,部署起来非常困难。因此,你需要使用一些技术来引入稀疏性,从而加快推理速度。你可以看到,之前首次生成一个token需要5分钟,而现在只需要1分钟,这也意味着它会更便宜,因为注意力机制中存在稀疏性,但我们发现性能并没有下降,或者在100万token的上下文中,我们得到了一个性价比很高的预期性能。
除了理解长上下文之外,还有另一种扩展,那就是生成长上下文的能力。以前我们能够生成 8k tokens,但你会发现这还不够。因为现在我们有长链式推理(Long Chain of Thought),所以,它之前还不足以生成非常、非常长的文本,但如今情况已经大不相同了。也许现在它能够生成像 12.8k 个 token 的文本,这实际上是可以实现的。对于目前的Qwen来说,它实际上能够生成大约 32k 的 token。

(文:极市干货)

欢迎分享

发表评论