生成式AI进入第二幕:交大携手创智学院提出「认知工程」,AI新纪元开始了


第二幕将催生一种全新的专业:认知工程师 (Cognitive Engineers)— 专注于将人类或 AI 在各领域的深度认知提炼、结构化并转化为 AI 可学习的形式。


无论你是技术创造者还是使用者,理解这场认知革命都至关重要。我们正在从「AI as tools」向「AI as thinking partners转变,这不仅改变了技术的能力边界,也改变了我们与技术协作的方式。


一、生成式 AI 的第一幕:辉煌与局限


第一幕取得的辉煌成就


2022 年末,ChatGPT 横空出世,引发了一场席卷全球的 AI 革命。这场革命之所以深刻,正如比尔・盖茨所言:「人生中让我印象深刻的两次技术革命演示,一次是现在操作系统的先驱『图形用户界面』,另一个就是以 ChatGPT 为代表的生成式人工智能技术。」生成式 AI 的出现不仅改变了我们与计算机交互的方式,更重塑了我们对人工智能能力边界的认知。


从文本到代码,从图像到视频,生成式 AI 展现了令人惊叹的创造力。如今,你只需输入一句简单的指令,就能让 AI 生成「两艘海盗船在一杯咖啡中航行时相互争斗的逼真特写视频」;你可以向它提出复杂的编程需求,它会为你编写完整的代码;你甚至可以请它以莎士比亚的风格撰写一篇关于量子物理学的论文。这些曾经只存在于科幻小说中的场景,如今已成为我们日常生活的一部分。生成式 AI 正在实现一种前所未有的民主化,让高级智能服务不再局限于技术精英,而是向每个人敞开大门。


在过去的两年里,我们经历了生成式 AI 的第一幕(2024 年 9 月前):以大规模预训练和提示工程为基础,实现了知识的高效存储和检索。这一阶段的技术基础建立在两大核心支柱上:生成式预训练(Generative Pretraining)作为数据存储机制,将世界知识压缩到神经网络参数中;以及提示工程(Prompting Engineering)作为知识读取方式,而且是通过人类最擅长的自然语言交互提取这些知识。



在标准基准测试上,第一幕 AI 取得了显著进步。以 MMLU(大规模多任务理解测试)为例,从 2019 年到 2024 年,顶尖模型的性能从人类水平以下迅速攀升至超过 90% 的准确率,超越了人类表现。这些基准测试涵盖各种知识领域和任务类型,从常识推理到专业知识,从语言理解到问题解决,AI 模型在几乎所有领域都展现出了惊人的进步。


第一幕的根本局限


然而,随着我们对生成式 AI 的深入应用,第一幕的根本局限也日益凸显,尤其在复杂推理能力方面的不足。


推理能力的短板最为突出。以 AIME(美国高中数学竞赛)为例,即使是最先进的模型如 Qwen-2.5-Math,在面对 2024 年 AIME 的 30 道题目时,也只能正确回答 9-13 道。这表明,在需要深度数学推理的任务上,第一幕 AI 仍然与人类专家有明显差距。


同样,在 OS World Benchmark (评估 AI 操作电脑完成任务的能力) 等测试中,这些模型在使用计算机完成复杂任务时表现不佳。此类任务需要长链规划、工具使用和环境交互,而现有模型往往难以维持连贯的长期计划和适应动态环境变化。


第一幕 AI 模型在这些复杂推理任务上的表现远远落后于其在文本理解等方面的成就。即使是 GPT-4o 这样的顶尖模型,在需要深度思考的场景中仍然困难重重。


除了推理能力的短板外,第一幕 AI 还存在知识更新滞后的问题。模型的知识截止于其训练数据的时间点,无法自动获取最新信息。这导致在快速变化的领域中,模型提供的信息可能已经过时或不准确。


最根本的局限是深度思考能力的缺失。第一幕的模型更像是一个知识管理工具,善于检索和整合已有信息,但难以进行真正的创造性思考或处理前所未见的复杂问题。它们无法像人类那样进行长时间的深度思考,无法在思考过程中识别错误并调整方向,也无法连接远距离的知识点形成新的见解。我们需要一个会深度思考的模型!


为什么(思考)推理能力如此重要?正如某位 OpenAI 科学家:任何要完成的工作都会遇到障碍,而让你绕过这些障碍的是你的推理能力。」 在实际应用场景中,推理能力的重要性表现在多个方面:


  1. 数理推理:从证明数学定理到解决物理问题,强大的推理能力是科学研究的基础。

  2. 工具调用:在处理「白酒和新能源推荐更有潜力的一支股票」这类请求时,模型需要理解查询意图,分解为子任务,调用适当工具,并整合信息给出合理建议。

  3. 智能体规划:执行「帮我下单一款苹果去年 3 月份新出的手机」等任务时,需要理解时间线索,识别产品,了解购买流程,并执行多步操作。

  4. 更复杂场景:如 Deep Research(深度研究)、Computer Use(计算机使用)和 Codebase-Level Reasoning(代码库级推理)等任务,都需要模型具备持续、连贯的推理能力和适应性思考。


第一幕技术的总结


第一幕 AI 的推理局限引发了一个关键问题:仅通过预训练扩展能否实现复杂推理?行业内已形成共识认为「预训练将要结束」,「仅通过预训练无法实现 AGI」。通用 LLM 已在普通用户需求领域趋于饱和,而前沿创新领域仍存在巨大的提升空间。


这种现象表明,我们遇到了预训练扩展的瓶颈。尽管投入更多数据和计算资源,模型在推理能力上的提升却日渐减缓。我们需要一种根本性的范式转变,而不仅仅是对现有方法的量化扩展。


总结第一幕的生成式 AI,我们可以看到其技术基础是预训练和微调的结合。这一阶段的 AI 模型:


  • 能力特点:掌握海量已有知识,处理日常高频任务,完成简单推理

  • 局限性:知识更新滞后,难以深度思考,推理能力有限


正是这些局限促使我们转向生成式 AI 的第二幕 —— 认知工程。我们需要一个真正会深度思考的模型,而不仅仅是一个高效的知识检索工具。第二幕的到来,标志着 AI 从知识管理向认知管理的跨越,从信息处理向思维模拟的进化。这一转变将如何实现?它又将带来怎样的革命性变化?这正是我们接下来要探讨的内容。



二、生成式 AI 的第二幕


在生成式 AI 的发展历程中,我们正跨入一个激动人心的新阶段 —— 第二幕:认知工程。这一转变不仅仅是技术的迭代,更是 AI 能力本质的重新定义。那么,什么是认知工程?它与第一幕的知识工程有何本质区别?为什么它会在此时出现?这些问题将成为我们理解 AI 未来发展的关键。


最近,上海交通大学联合创智学院,耗时超过半年,创建了教科书级别的长达 76 的文章(并提供了双语版本),首次提出:「认知工程」的概念:认为生成式 AI 发展已进入第二幕,从原来的以预训练技术为核心的提示词工程 (Prompt engineering) 转变为以 Test-Time scaling 为核心的认知工程 (Cognition Engineering),结合 400 多篇论文和最新的研究工作全景式介绍了 Test-time scaling 技术驱动下的范式变革。


  • 论文标题:Generative AI Act II: Test Time Scaling Drives Cognition Engineering

  • 英文论文地址:https://arxiv.org/pdf/2504.13828

  • 中文论文地址:https://github.com/GAIR-NLP/cognition-engineering/blob/main/assets/Cognition_Engineering_zh.pdf

  • 代码地址:https://github.com/GAIR-NLP/cognition-engineering


图:提示工程使人类首次通过自然语言与 AI 实现对话级交流;如今,认知工程则通过基于语言的思想,建立起我们与 AI 之间首次思维层面的连接 —— 宛如意识之间的直接对接。


这篇工作提供了什么?


该文章全面介绍了生成式 AI 发展第二幕的特点、技术手段、应用前景、未来方向,并努力让不同的人群都有所收获,包括但不限于:


  • 作为 AI 研究人员,您是否正在寻找突破大型语言模型当前瓶颈的新研究方向,寻找下一个 Scaling Law

  • 作为 AI 应用工程师,您是否需要一个更加实战经验的教程指导你如何把 Test-time Scaling 应用到你的应用场景里

  • 作为数据工程师,您是否想了解大模型第二幕下什么样的数据更加宝贵(即数据工程 2.0)?

  • 作为学生或 AI 新手,您是否希望有一个系统性框架来理解「认知工程」和「Test-time Scaling」的概念和应用以及「傻瓜式」的入门代码教程?RL Scaling 的训练技巧太多,如何系统性的整理?

  • 作为教育工作者,您是否需要结构化的教学资源来解释「Test-time Scaling」?

  • 作为投资者或决策者,您是否想了解生成式 AI 已进入的新阶段, 通过「第一 / 二幕」框架获得强化视野,提供深度的认知洞察


特别的,该文章提供了如下的系统化资源:


  • 如何在特定领域应用 Test-time scaling 的工作流程图总结,以及数学、代码、多模态、智能体、具身智能、安全对齐、检索增强生成、评估等多个领域的应用范例。

  • 提高 Test-time scaling 的扩展效率方法的全面总结,涉及并行采样、树搜索、多轮修正、长思维链等主流的 Test-time scaling 技术。

  • 如何利用强化学习技术激发大模型长思维链能力,包括代码教程、工作总结、训练问题的常见应对策略

  • 不同领域的长思维链资源汇总。

  • Test-Time scaling 前沿持续追踪。


三、深度解读三大扩展定律(Scaling Laws)



预训练阶段(蓝色区域):图中的蓝色知识节点之间存在天然连接(Innate Connection),这些连接是模型通过大规模预训练自然形成的。例如,「Earth」(地球)、「Gravity」(重力)和「Falling Objects」(落体)之间存在直接的天然关联,模型可以轻松理解「苹果为什么会落下」这类问题。但注意「Kepler’s Laws」(开普勒定律)和「Universal Gravitation」(万有引力)这类更深层次的知识点与日常现象之间并没有直接连接。


后训练阶段(绿色区域):通过额外的监督学习和对齐训练,模型形成了更多学习得到的连接(Learned Connection)。图中的绿色曲线显示,这一阶段的智能增长速度比预训练阶段更快,但仍然有其极限。


测试时阶段(红色区域):这是认知工程的核心部分。在这一阶段,模型能够在推理过程中动态建立「推理连接」(Reasoned Connection),将远距离的知识节点连接起来。图中显示,当面对一个问题(Query Start Node,Qs)时,模型不仅利用已有连接,还能通过推理建立新的连接路径,最终到达目标节点(Query End Node,Qe)。


生成式 AI 的发展可以通过 Computation Scaling 模型来理解。


我们可以清晰地看到这一转变的视觉化表达。图表将 AI 的发展划分为三个阶段:Pre-training(预训练)、Post-training(后训练)和 Test-time(测试时),横轴代表 Computation Scaling(计算扩展),纵轴代表 Intelligence(智能水平)。


阶段一:预训练扩展


通过增加训练数据和模型参数来提升性能,但逐渐遇到天花板。


阶段二:后训练扩展


通过精细调整、对齐和指令遵循进一步提升模型能力,但增长同样趋于平缓。


阶段三:测试时扩展


通过改变推理过程本身,打开了一个全新的扩展维度,性能曲线再次陡峭上升。


这种演进模式告诉我们一个重要事实:当一种扩展方式达到极限时,我们需要寻找新的扩展维度。测试时扩展正是这样一种新维度,它不再仅仅关注「模型知道什么」,而是关注「模型如何思考」。


这种能力的本质是:模型可以在推理过程中进行深度思考,动态构建认知路径,而不仅仅是检索静态知识。测试时阶段的红色曲线陡峭上升,表明这种方法带来了智能水平的显著提升


四、认知工程


什么是认知工程?「认知工程是通过超越传统预训练方法的 Test Time Scaling (测试时扩展) 范式,系统性构建人工智能思维能力的方法论。它融合人类认知模式提炼和 AI 自主发现(如强化学习),有意识地培育人工系统的深度认知能力。


DIKW 金字塔及其与认知工程范式的关系


认知工程代表了人工智能发展范式的根本转变,其核心在于系统化地构建 AI 系统的深度认知能力。基于 DIKW(数据 – 信息 – 知识 – 智慧)理论框架,这一新兴领域致力于实现从知识层面向智慧层面的质变突破。


在认知维度上,传统 AI 系统主要停留在数据和信息处理层面,大语言模型虽然实现了知识层面的突破,但认知工程更进一步,聚焦于智慧层面的核心特征:包括通过多层级复杂推理与元认知能力实现的深度思考;通过跨领域知识整合与新见解生成的创造性连接,以及根据问题复杂度自主调整思维过程的动态适应能力。


与传统 AI 范式相比,认知工程展现出根本性差异:


  • 能力基础上实现了从数据 / 信息累积到知识 – 智慧转化的转变;

  • 学习方式上从行为模仿转向思维过程模仿;

  • 系统特性方面将静态知识库升级为动态认知系统;

  • 输出模式上完成了从知识检索到知识创造的跨越。这种范式转变标志着 AI 发展进入以「思维质量」为核心的新阶段。



认知工程可以定义为:通过延长推理时间和学习人类认知过程,使大模型由第一幕的知识管理工具进化成具备深度思考能力的认知管理工具。这是一个从「知道什么」到「如何思考」的根本转变。


我们可以通过知识图谱的类比来直观理解这一转变。在第一幕中,大模型通过预训练获取了大量的知识点(节点)和它们之间的常见关联(边),形成了一个庞大但相对静态的知识网络。当用户提问时,模型主要在这个预先构建的网络中检索和组合已有信息。这就像是在一个已经铺好的公路网上行驶,只能到达那些有道路相连的地方。


而在第二幕的认知工程中,模型获得了一种新能力:它可以在推理过程中「修建新路」—— 也就是通过深度思考建立远距离知识点之间的新连接。面对一个复杂问题,比如「量子力学与心理学有何关联?」,第二幕的模型不再仅仅检索已知的直接联系(如果有的话),而是能够通过多步推理,探索这两个领域之间可能存在的联系路径,甚至发现前人未曾注意到的隐含关系。


这种能力的核心在于:模型可以在推理过程中动态构建认知路径,而不仅仅是检索静态知识。这正是人类深度思考的本质特征之一。


五、为什么现在发展认知工程?


认知工程的兴起并非偶然,而是对 AI 发展在 DIKW 金字塔中遭遇「智慧鸿沟」的直接回应。尽管在知识检索、内容生成和基础推理方面取得显著进展,大语言模型在智慧层面仍存在明显缺陷:


  • 复杂推理局限:在多步逻辑推演(如数学证明、科学问题求解)中,当前大语言模型难以实现可靠的子问题分解与路径探索。

  • 知识静态性缺陷:预训练模型存在知识固化问题,既无法自主更新知识体系,更缺乏提出原创假设的科学发现能力。

  • 应用需求升级:从模式匹配转向复杂决策支持,用户需求已超越知识检索,要求系统具备多视角分析与创新洞察。


认知工程在此特定时刻兴起,得益于多项技术突破的同步成熟。这些突破共同创造了必要条件,使 AI 得以从知识管理迈向深度认知能力。认知工程的崛起建立在三大关键技术支柱之上:


  • 知识基础:训练数据从非结构化文本升级为整合科学文献、技术文档、编程代码库的专业语料体系(如 Llama 2 的 2 万亿 token 知识生态)。

  • 测试时扩展技术:传统推理方法受限于固定输出长度和单次生成范式。近期一系列技术突破显著扩展了模型的推理能力:思维链提示(CoT) 引导模型像人类解题那样逐步推理;树状搜索允许同时探索多条推理路径而非局限于单一思路;自我修正与验证技术进一步强化这些能力,使模型能评估自身推理、识别潜在错误并改进方法 —— 模拟人类元认知过程。

  • 自训练技术:通过强化学习框架(如 DeepSeek-R1),模型自主掌握反思 / 回溯等高级认知技能,并在可验证奖励机制中持续优化推理策略。


六、如何使用 Test-Time Scaling 技术推动认知工程?



全文从两个角度介绍了如何使用 Test-Time scaling 技术推动认知工程。


(1)Test-time scaling 方法


全文主要介绍了四种 Test-time scaling 方法:并行采样、树搜索、多轮修正和长思维链推理。对于每种 Test-time scaling 方法,涵盖构建方法、扩展规律以及如何从单个方法优化角度提高扩展效率。此外,文章还在多个维度上比较了这些方法的优劣势,并讨论如何有效地结合它们以提升性能。


提高 Test-time scaling 扩展效率的方法总结


不同 Test-time scaling 方法的比较


不同 Test-time scaling 方法的集成


(2)Test-time scaling 背后的训练策略


对于长思维链的 Test-time scaling 技术,对于传统的大语言模型,需要强化学习或者监督微调技术解锁其长思维链能力,该文章结合最新的工作,对于强化学习技术,从训练算法、奖励函数、策略模型、训练数据、多阶段训练五个角度全面介绍其设计准则,此外论文还提供了配套的代码教程


应用强化学习技术解锁长思维链能力工作总结


解决强化学习训练常见问题的方法汇总


不同强化学习算法比较


不同奖励类型的比较


对于使用监督微调技术解锁长思维链能力,该文章从训练数据来源、训练数据质量、训练数据量、训练方法 、基模型五个角度全面介绍其设计准则,并汇总了常见的针对不同场景的长思维链资源。



七、数据工程 2.0: 认知数据工程


传统人工智能主要关注知识获取 —— 训练系统学习人类思维的成果。然而,认知工程要求一种根本性的不同:从思维成果转向思维过程本身。这一转变催生了一门新学科 —— 认知数据工程,它彻底改变了我们对有价值训练数据的理解。


认知数据来源于三个不同但互补的来源,每个来源都为开发过程带来了独特的优势和挑战:


来源 1:人类认知投射


尽管目前缺乏直接捕捉人类思维过程的脑机接口,我们仍可以通过物理世界中的投射来获取人类认知:


  • 直接记录的产物。专家问题解决过程的视频记录、出声思考记录以及详细的研究日志,捕捉了认知过程的展开。这些记录不仅保留了解决方案,还保留了专家思维中的混乱现实 —— 错误的开始、修改和突破。

  • 工具介导的认知痕迹。复杂的认知活动在专用工具中留下了痕迹 —— 实验室笔记本、协作白板会议、软件开发中的版本控制系统,以及科学论文通过草稿和修订的逐步完善。这些工具作为代理,使隐含的认知过程变得显性和可观察。

  • 前沿专业知识提取。最有价值的认知模式通常存在于领域前沿专家的头脑中。这些模式需要精心设计的提取方法 —— 专门的访谈技术、定制的问题场景和高质量的互动,将隐性知识提炼为显性的推理轨迹。


来源 2:AI 生成的认知


通过适当的奖励机制和复杂的强化学习方法,AI 系统现在可以在环境中独立生成有价值的认知数据或轨迹:


  • 环境与奖励的协同作用。当提供设计良好的环境、适当的奖励函数和强大的初始化模型时,AI 系统可以通过扩展探索发现新的认知策略。这些策略可能与人类方法大不相同,但能达到同等或更优的效果 —— 类似于 AlphaGo 著名的「第 37 手,最初让人类专家感到困惑,但最终证明非常有效。

  • 自我对抗与对抗性发现。系统可以通过与自己竞争或面对越来越复杂的场景,生成越来越复杂的认知数据,开发出仅靠模仿人类例子无法出现的推理策略。

  • 认知发现中的规模化效应。随着计算资源的增加,AI 系统可以探索由于生物限制(如记忆、注意力跨度或处理速度)而无法为人类所及的认知路径 —— 可能在从数学到药物设计的各个领域中发现新的问题解决方法。


来源 3:人机协作生成


最有前景的或许是通过人机伙伴关系共同创造认知数据:


  • 轨迹采样与人工过滤。AI 代理可以生成多样化的解决路径,然后由人类专家评估和提炼,结合机器生成的多样性和人类对质量和相关性的判断。

  • 人工种子与 AI 扩展。人类专家可以提供复杂领域中的初始推理示例,然后 AI 系统进行认知完成(即扩展、系统化变化和完成)—— 创建比仅靠人工标注更大的训练数据集。

  • 迭代优化循环。人工和 AI 的贡献可以在渐进循环中交替进行,每一方都在对方工作的基础上进行增强 —— 人工提供创造性飞跃或概念重构,AI 提供系统化的探索和边缘案例。


这种认知数据建立了一类全新的数字资源,有可能推动 AI 能力超越仅靠自然数据收集或合成生成所能达到的水平。由此产生的认知数据存储库很可能变得与大规模计算资源一样具有战略价值,成为决定 AI 进步领导地位的关键因素。


预训练阶段数据工程演变趋势(左)与后训练阶段数据工程演变趋势(右)


该文章还从数学、代码、多模态、智能体、具身智能、安全对齐、检索增强生成、评估等多个角度介绍了 Test-time scaling 驱动下的认知工程的应用实例以及未来发展方向:


Test-time scaling 技术在不同领域的应用


Test-time scaling 技术在数学领域工作的时间线总结


论文还提供了手把手写 RL Scaling 的代码和对应使用的数据集,让每个感兴趣的人都可以掌握这门技术



八、结语


站在 2025 年的视角回望生成式 AI 的发展历程,我们见证了一场前所未有的认知革命。从第一幕的知识管理工具,到第二幕的认知工程,AI 正在经历一场本质的蜕变。


第一幕以大规模预训练和提示工程为基础,创造了能够理解和生成人类语言的强大模型。这些模型擅长知识检索和简单推理,为人类提供了前所未有的信息处理工具。然而,它们在深度思考、复杂推理和创新性任务上的局限也日益明显。


第二幕的认知工程带来了根本性的突破。通过测试时扩展技术,AI 首次获得了真正的深度思考能力;这场认知革命的影响深远。在短期内,它将改变软件开发、内容创作和信息分析等领域的工作方式;在中期,它将重塑教育体系、科学研究和商业创新的流程;在长期,它可能会改变人类与技术的关系本质,创造一种人机共生的新智能形态。


对于开发者,建议是:不要仅停留在 API 调用层面,深入了解认知工程的原理,学会设计能够激发 AI 深度思考的交互;对于研究者,寻找测试时扩展与新型架构结合的创新点,探索认知与记忆的协同优化;对于产业界,投资认知数据的收集与生成,打造满足行业特定需求的认知模型。


无论你是技术创造者还是使用者,理解这场认知革命都至关重要。我们正在从「AI as tools」向「AI as thinking partners转变,这不仅改变了技术的能力边界,也改变了我们与技术协作的方式。



©

(文:机器之心)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往