
AI 智能体终于学会”灵活变通,察言观色”了!从直觉派到谋略家,让 GPT-4o 甘拜下风的社交高手是如何炼成的?
最近,通义实验室的最新研究工作让 AI 智能体掌握了人类高深的社交艺术:四种思考模式的动态切换!就像人类能在不同场合灵活应变一样,这个 AI 能精准把握对话氛围,随时调整思考深度:
✨闲聊时,它能一秒变身”直觉派”,轻松应对
💡分析对方意图时,秒切”观察者”模式,洞察人心
📊复杂谈判中,立马进入”战略家”思维,运筹帷幄
🎯关键决策时刻,化身”推演大师”,步步为营
这标志着 AI 终于摆脱了”社交直男”的尴尬,朝着真正的”社交达人”迈进了一大步!那么问题来了:你觉得未来的 AI 会不会比人类更懂社交?

论文标题:
Adaptive Thinking via Mode Policy Optimization for Social Language Agents
论文链接:
https://arxiv.org/abs/2505.02156
代码链接:
https://github.com/MozerWang/AMPO

文章研究动机

▲ 图1. 与现有工作对比:(a)现有不具备思考推理的社交智能体;(b)作者提出的具有自适应思考能力的社交智能体。
1. 现有大语言模型 (LLMs) 在处理静态问题(如数学、编程等)时表现出色,但在处理复杂的、动态演变的社会场景(如利益冲突、商业谈判等)时仍存在明显不足。这些社交场景具有不确定性高、需要长期规划等特点。
2. 当前研究社交智能的方法主要有两种路线:(1)端到端的目标导向训练;(2)外部规划器的集成。但这些方法主要关注”快思考”范式,缺乏足够的思考过程。研究表明,在实际的社会互动中,人类通常会进行适当的思考过程,而不是仅依赖直觉反应。
因此,目前的”快思考”范式并不足以满足有意义社会互动的认知需求。虽然在数学、编程等静态推理问题上已经开始使用长链思考 (Long-CoT),但是 test-time scaling 还没有在社交智能领域得到探索。
3. 现有的大型推理模型 (LRMs) 在处理社会场景时存在局限性:它们倾向于无论输入复杂度如何都进行穷尽式推理,这种方式不仅会导致不必要的 token 使用,过度思考可能反而会降低性能。
因此,为社会智能体设计一种能够根据社会环境动态调整的推理机制,使其能够更好地应对复杂多变的社会场景是急需解决的研究问题。

文章贡献
作者提出了自适应模式学习框架(AML):这是首个针对社会智能体的有效自适应长链思考(Long-CoT)推理方法,通过预定义的思考模式和定制的强化学习算法实现,使社会智能体能够根据具体情境选择合适的思考方式。
开发了自适应模式策略优化(AMPO)算法:充分考虑了思考模式层面和样本层面的信息,通过动态切换思考模式来应对情境变化,在保证效果的同时也确保了 token 使用的效率,使社会智能体具备了自适应思考的能力。
通过大量实验验证了方法的有效性:相比 GPT-4o,性能提升了最多 15.6%;与 GRPO 相比,token 使用减少了 32.8%,性能提升了 7.0%,证实了该方法在效果和效率上的显著优势。作者也分析模型自适应行为,并人工评估模型的输出,进一步验证方法效果。

方法设计

▲ 图2:自适应模型学习(AML) framework示意图,由三步组成:(1)基于层级认知控制理论设计的思考模式;(2)模式行为克隆;(3)自适应模式策略优化算法(AMPO),共同考虑模式层面和样本层面的优势。
如图 2 所示,AML 框架由三部分组成:(1)受层级认知控制理论启发,作者精心设计了四种阶梯思考模式;(2)模式行为克隆,确保模型能够准确遵循作者设计的思考模式;(3)自适应模式策略优化算法(AMPO),通过强化学习增强自适应思考模式切换和推理。
3.1 思考模式设计
层次认知控制理论 (Hierarchical Cognitive Control Theory, HCCT) 提供了一个理解人类认知行为的理论框架。该理论认为,认知控制通过四个不同的层级运作,在不同程度上管理目标和行动。
受 HCCT 启发,作者针对不同的对话场景提出了四个层次的思考模式,如图 5 所示,涵盖了从直觉反应到逐渐深入的思考的各个阶段。针对每种思考模式,作者设计了符合语言学原则的具体且合适的动作:

▲ 图3:四种层级思考模式
模式1 直觉反应: 是最基本的模式,其特点是基于习得联想和基本语言模式的直觉反应。它不包含任何思考行为,只有最终答案。
模式2 意图分析: 是基本的交互模式,侧重于理解当前意图并做出恰当的回应。 仅要求维持基本的交互流程,无需复杂的策略考量。它包含一系列思考行为:意图、风格和回应。意图旨在分析对方的意图。风格确保社交主体说话风格的一致性。回应提供初步答案。
模式3 策略适应: 是一种策略性思考模式,要求说话者不仅要理解当前情境,还要综合考虑历史信息、目标和当前形势评估,从而制定相应的策略。这使得说话者能够更好地适应特定的社会情境。
与 相比, 增加了三个思考动作:历史、目标、评估和策略。历史旨在分析历史以更好地理解情境。目标明确了智能体的目标。评估分析了目标一致性、回合关键性和各方之间的改进潜力。策略使智能体能够针对当前的社会情境提出合适的策略。
模式4 前瞻演绎: 是一种高级策略模拟模式,要求说话者构思多种策略,并通过模拟评估其效果,从而做出最佳决策。 在 的基础上进一步引入了演绎和整合。策略模式鼓励提出多种策略,然后通过演绎操作模拟这些策略的执行。整合操作则将演绎的结果汇总起来,形成初步答案。 有助于模拟各种情境,以促进更深入的思考,从而有效地应对更复杂的社会环境。
3.2 模式行为克隆
为了增强模型遵循四种思考模式的能力,作者首先采用行为克隆对模型进行微调,作为后续强化学习的基础。给定构造好的专家数据 ,训练目标为:

3.3 自适应模式策略优化算法(AMPO)
3.3.1 优势估计
GRPO 是训练长思考链推理模型的关键强化学习算法,它不需要额外的价值函数,而是使用平均奖励作为计算优势的基准:

在该优势计算公式中,GRPO 将每个样本独立处理,忽略了不同样本在思考模式方面的内在联系。这种设计存在一个关键的局限性:由于缺乏模式级信息的建模和利用,LLM 无法感知和区分不同的模式,例如直接响应与逐步推理。
因此,该模型倾向于根据固定的偏好选择推理行为,而不是根据特定场景动态调整其思考模式。后续的实验也表明,无论任务复杂度如何,GRPO 通常都会使模型收敛到最复杂的推理。
为此,作者提出了自适应模式策略优化 (AMPO) 算法,该算法在其优势估计中同时融合了模式级和样本级信息,以促进自适应思考学习,使 LLM 能够在模式级识别适合当前场景的思考模式,并在样本级优化给定模式中的特定思考内容。AMPO 的目标形式化定义为:

其中, 和 分别表示模式级和样本级的优势。, 是超参数, 表示新旧策略模型的概率比率, 表示 KL 散度计算。模式层级和样本层级的优势计算如下:

其中, 表示思考模式总数, 表示rollout样本总数, 表示rollout组中第 个样本 的奖励值,。作者将两个关键维度视为模式级信息:平均奖励 和平均输出 token 长度 :

其中 表示第 个思考模式 的 rollout 样本集合, 和 分别表示第 个样本的奖励值和 token 长度。 其中 是从旧策略 中采样得到的一组输出。
模式级优势的引入使得 LLM 能够在不同场景下自适应地选择合适的思考模式,这种自适应性体现在推理长度和任务性能之间的动态权衡,并在两个关键条件下发挥作用。
当不同模式的性能相当时,LLM通过选择具有最少 token 长度 的模式来优先考虑效率;当不同模式的性能存在差异时,LLM 通过平均奖励 来识别最优方法。该机制确保 LLM 在保持效率的同时,根据情境需求动态调整其推理方法。
3.3.2 奖励函数设计
文章提出的奖励函数由三部分组成:答案奖励 、格式奖励 和答案长度奖励 。奖励 的计算方式如下:

答案奖励:答案奖励评估的是当前回复在多大程度上促进了目标的完成。作者利用强 LLM 评估器 ,用于评估每次交互中目标的完成进度。该评估器会在 范围内分配一个分数,其中 0 表示没有进展,10 表示完全达成目标。
对于每个答案 ,奖励是根据答案前后目标完成分数的差值 计算的。为了确保训练的稳定性,作者设计了一个边界感知的缩放函数,该函数会根据当前分数与边界的距离动态调整差值的大小,同时通过线性变换将缩放后的差值映射到 区间:

其中 是边界感知缩放函数。 是原始差异, 是在回合 做出回应之前的目标完成分数, 是反应 之后的分数。
格式奖励:为了确保模型遵循思考模式,作者引入了格式奖励,用于惩罚那些偏离思考模式的行为。具体来说,思考和答案必须在标签范围内。每个标签和动作必须恰好出现一次,并保持正确的顺序。通过这些约束,可以确保模型严格遵循预先设计的思考模式。
作者采用二元方法实现格式合规性奖励,仅惩罚那些不符合格式的行为。如果不符合格式,则 ;否则, 将不参与奖励计算。
答案长度奖励:为了控制答案的长度,作者引入了长度惩罚机制。在早期的奖励设计中,作者观察到 LLM 生成的答案冗长,却并未带来实际的策略改进。此外,过多的答案会导致多轮交互中历史记录的积累,从而显著增加计算成本。
为此,作者开发了一个平滑的长度惩罚函数,用于规范化实际答案长度与目标答案长度之间的偏差:

其中 表示答案 的实际长度 与目标长度 之间的差异(以 token 为单位); 是控制惩罚敏感度的比例因子。 会惩罚偏离目标长度的答案,偏差越大,惩罚越大。

实验结果

▲ 图4:主实验结果

AML 框架对社交智能体是有效的吗?如图 5 所示,在 AML 框架下,无论使用 GRPO 还是 AMPO,LLM 都表现出色,达到了 SOTA 水平。
对于 Llama 模型,AMPO 在 SOTOPIA-Hard 的 GOAL 测试中甚至比 GPT-4o 提高了 15.6%(6.97 → 8.06)。这验证了作者的 AML 框架将长 CoT 推理应用于社交智能的有效性,代表了该领域的首次突破。
此外,BC 也表现出令人欣喜的结果,它仅通过监督微调就超越了大多数基线,证明了作者四种思考模式的有效性。与其他主流的长思考链推理模型相比,作者取得显著的性能优势,只是因为设计与社会认知相一致的思考模式,确保模型生成适当的推理轨迹。

AMPO 是否比 GRPO 取得更好的自适应思考效果?如图 5,6 所示,AMPO 的响应长度显著短于 GRPO,同时在 SOTOPIA 和 SOTOPIA-Hard 上均取得了优异的性能。
具体而言,对于 Llama Backbone,AMPO 的推理标记 (581) 仅为 GRPO (865) 的 67.2%,但在 SOTOPIA-Hard 上,其性能比 GRPO 285 提高了 7.0% (3.44 3.68)。
如图 5 所示,AMPO 展现出对动态情境的感知能力,并能够自适应地在各种思考模式之间切换,而非仅仅适应最复杂的模式。在训练过程中,GRPO 倾向于收敛到单一思考模式,表现为 的急剧增加以及其他模式最终收敛到零;而 AMPO 则自适应地探索各种思考模式,有效地减少了输出 token 长度并取得了卓越的性能。

▲ 图7:思考模式效果分析
思考模式是如何产生作用的? 为了进一步检验作者思考模式设计的有效性,作者进行了一系列变体实验,如图 7 所示。
1. 四种混合思考模式的有效性。可以观察到:
-
作者的四种混合思考模式通过 GRPO 带来了显著的性能提升,例如,在困难场景中,由于通过显式模式设计提供了更清晰的思考指导,相对提升了 8.0% (3.16 3.41)。
-
AMPO 在困难场景中进一步将目标和整体性能分别提升了5.5% (7.44 7.85)和3.8% (3.41 3.54)。
-
值得注意的是,与无模式思考和作者设计的基于 GRPO 的思考模式相比,基于 AMPO 的思考模式的 token 使用率分别下降了 25.3% 和 28.5%,但其性能达到了 SOTA。这是因为 AMPO 赋予了 LLM 在动态情境中自适应思考的能力,使其能够兼顾有效性和效率地选择合适的思考模式。
2. 单一思考模式的影响。此外,作者通过仅使用单一模式进行优化来展示每种思考模式的效果。可以看到:
-
随着思考模式的深化(从 到 ),任务性能和 token 使用率均逐渐提升,并且在具有挑战性的场景(例如 SOTOPIA-Hard)中,任务的性能提升更为显著,这表明更深层次的思考有利于解决更困难的社会情境。
-
虽然具有更大思考深度的 在单一思考模式的设置中取得了最好的任务表现,但是与四种思考模式的 AMPO 相比,在 token 利用率上仍然存在明显差距,这也证明了自适应思考的有效性和必要性。

▲ 图8:左图:模式分布。右图:根据目标完成状态将情境分为四种:双方均未实现目标 (N-N)、我方实现而对方未实现 (Y-N)、我方未实现而对方实现 (N-Y) 以及双方均实现目标 (Y-Y)。
AMPO 是否具有自适应性?为了探究 AMPO 的适应性行为,作者从不同轮次和不同情境两个维度对思考模式的分布进行了详细的分析,如图 8 所示。
1) 模式分布分析。思考模式的演化呈现出明显的规律,复杂模式在交互过程中逐渐减少,而简单模式则逐渐增加。最复杂的模式 在最初的 1-4 轮次中表现出明显的前端负载,占比高达 53%,随着交互的进行,其频率大幅下降。
相反,较简单的 和 表现出明显的后端负载, 的 50% 出现在第 14-20 轮次,而 则在第 9-20 轮次的中后期保持较高的频率。
虽然 在整个互动过程中呈现出更为一致的分布,但它呈现出逐渐下降的趋势,从最初五轮的 31% 下降到最后五轮的 21%。
这种动态模式与不断变化的互动情境相吻合:复杂模式在关键的早期回合中占据主导地位,此时目标尚未实现,需要复杂的处理;而简单模式则在后期回合中占据主导地位,此时目标已基本实现,只需要进行基本的沟通。
2) 情境分布分析。较简单的 和 主要出现在双方目标均能达成的简单情境(Y-Y)中。相反,更复杂的思考模式 和 ,尤其是 ,则在双方均未达成目标的复杂情境(N-N)中最为常见。

▲ 图9:人工评估结果
人工评估和案例分析:为了解决基于 LLM 的评估可能引入的偏见问题,并检查是否存在奖励黑客攻击,作者进行了严格的人工评估。从 SOTOPIA 和 SOTOPIA-Hard 中随机抽取了 100 段对话,并指示三位注释者将 AMPO 生成的响应与其他强大的基线(包括 GRPO、BC 和 DSI)进行成对比较。
作者在 SOTOPIA 中选择了三个关键维度:目标完成度 (GOAL)、关系 (REL) 以及财务和物质收益 (FIN),并以 AVG 计算它们的平均率。如图 9 所示,AMPO 在所有评估视角中的表现均优于基线。
此外,作者严格的验证流程证实,AMPO 的表现完全源于正常的互动,没有奖励黑客现象。作者还开展了案例研究,以揭示AMPO在将长科特推理转化为有效的目标导向型社交互动方面的卓越能力。
与定量研究结果一致,作者观察到 AMPO 通过加强人际关系和互惠互利的结果,在推进对话目标方面表现出了更强的能力,创造了双赢的局面,并体现了卓越的策略应用。

总结
本文介绍了自适应模式学习 (AML) 框架,该框架首次有效地实现了自适应长认知控制推理 (Long-CoT) 在社交智能任务中的应用。受分层认知控制理论和语言学原理启发,建立了四种分层思考模式。这些模式涵盖了从直觉反应到深度思考的一系列认知过程。
为了增强情境感知的模式切换和推理能力,作者引入了自适应模式策略优化 (AMPO) 算法,该算法将模式级和样本级信息整合到优势估计中。作者开展了大量实验,以证明 AML 和 AMPO 的有效性和独特优势。
此外,作者验证了思考模式设计的有效性,并对 AMPO 的自适应行为进行了详细分析。为了进一步验证工作效果,作者采用了严格的人工评估来进一步验证框架的有效性。
(文:PaperWeekly)