上海交大张拳石：思维链只是表象，DeepSeek凭什么更强智者访谈

一线 AI 洞察，智者深度思考

深入产业变革，共创 AI 未来

DeepSeek-R1 等模型通过展示思维链（CoT）让用户一窥大模型的「思考过程」，然而，模型展示的思考过程真的代表了模型的内在推理机制吗？在医疗诊断、自动驾驶、法律判决等高风险领域，我们能否真正信任 AI 的决策？

本期《智者访谈》邀请到上海交通大学张拳石教授，他在神经网络可解释性研究领域开创了新的理论框架。

不同于传统的工程技术层面的解释方法，张教授提出了「等效与或交互」解释性理论，用严谨的数学符号化方式证明神经网络的内在表征逻辑，为理解泛化性、鲁棒性和过拟合提供了新的视角。

面对大模型发展的各种挑战，张教授强调了理论创新的重要性。他说：「所谓十年磨一剑，相比用十年时间去优化一个复杂系统，更多是用十年去等待一个真正值得投入的问题。」

时间戳

01:20

思维链是模型的真实思考过程吗？

05:39

将表征逻辑严谨解释为符号化交互概念

14:16

幻觉、欺骗与创意：本质相同

20:49

结果导向，模型的自我纠正与提升：潜在风险

28:00

从表征角度理解泛化性、鲁棒性的根因

31:56

过拟合的内在机理

38:43

大模型的质量评估、安全与商业发展

46:06

从 Scaling 的维度到维度的 Scaling

50:10

用 CoT 数据反哺训练的潜在风险

52:36

如何在 AI 研究中找到真正的「大问题」

访谈文字整理

机器之心：张拳石教授好，欢迎做客《智者访谈》。要说最近 AI 圈的热点，可能是全球科技界的热点，毫无疑问就是 DeepSeek 了。

DeepSeek-R1 在「深度思考」模式下，会把它的「思考过程」，也就是思维链（Chain-of-Thought, CoT）以文字的方式展示出来。这不仅大幅提升了用户的体验，也让模型的可解释性再一次成为关注的焦点。实际上，深度学习可解释性作为研究方向，在学界一直备受重视。它不仅关乎 AI 的应用，尤其是在医疗、自动驾驶等对于安全和可靠性极度敏感的行业的应用，更事关深度学习成为一门科学的基础。

您钻研深度学习的可解释性多年，并且开创了新的理论，也即使用数学的、严谨的、符号化的方式去解释深度神经网络的内在表征，可以说是对传统观点的一种挑战。非常高兴与您一同探讨 AI 可解释性这个话题。

张拳石：感谢机器之心，很高兴来这里参与讨论。像 OpenAI、DeepSeek 这些知名的大模型公司都纷纷提供了思维链（功能），这是很好的趋势，大家逐渐意识到不仅要利用大模型提供输出结果，而且需要知道大模型输出结果的内在机理，思维链可以作为非常好的窗口，让我们去看到大模型是如何处理信息的。但是从可解释性的角度，究竟能否把思维链视为大模型严谨的推理机制，这是存疑的。

首先需要承认，思维链肯定是有作用的。但是从模型的内在机理看，它跟传统的没有思维链的生成语言没有本质区别，依然是对人类问答数据的经验性拟合。这种经验拟合有没有作用呢？肯定有作用，但以什么形式、什么角度、什么机制产生作用，我们是不清楚的。

如果没有一个严谨的解释性理论去严格分析其内在推理到底是如何运行，就没有办法探讨更深入的问题。

机器之心：从您的角度看，不同模型展示出来的思维链为什么会有这么大的区别呢？

张拳石：思维链，从它的根本数学机理来说，就是大模型端对端的输出。有些大模型给出的思维链看上去很好看，只能说提供的 QA 训练数据的拟合质量可能更好。

解释性领域实际有两类解释性算法：第一类想要是迎合人的主观认知的解释，第二类是从数学上对神经网络内在信息处理机制的严谨客观的解释。大模型的思维链，以及其他一些事后解释，这些方法某种意义上都是对人类认知的一种拟合，就是说解释出来的结果人能读懂。

我问大模型你究竟是怎么去做推理的？大模型可能事后说「我的推理依据是 1、2、3、4……」，但大模型真的是基于这些原因去做的吗？我们并不清楚，这就带来很大潜在风险。

所以要真正做到从数学机制层面保证大模型的解释是严格的、可靠的，但是很多人认为大模型内部参数那么多，特征那么复杂，不可能解释清楚。但我们必须把这看似矛盾的两者统一起来，提出可靠的检验方法，对大模型的信息处理进行内观与总结。

可解释性新理论：

证明对神经网络表征逻辑符号化解释的严谨性

机器之心：既然很难从数学上符号化地证明模型内在表征，您是如何做到这一点的呢？

张拳石：对神经网络解释的客观性和理论的扎实性，这是整个可解释性领域最重要的问题，没有之一。长期以来人们普遍认为这是不可能的，且不说大模型，就是一个深度神经网络，其内部的连接机制和特征是很混乱的。我们希望的解释是清晰的、稀疏的、简洁的，甚至是符号化的因果推理，所以很多人第一反应这是不可能的。当然，并非没有人从符号化的概念语义层面去解释，但这些技术无一例外都是对大模型或神经网络输出结果的一种近似拟合。

如果没有办法对大模型进行事后的严谨解释，在自动驾驶、医疗诊断、法律判案这些重大、严谨的应用中是不能运用大模型的。因此，需要定义新的理论体系，定义解释的客观性与可靠性。

我们提出了一个叫做「等效与或交互」的神经网络可解释性理论：给定任意一个神经网络，可能是大模型，可能是其他的神经网络，都可以用符号化的「与或图模型」去解释。

基于「等效与或交互」的神经网络可解释性理论，证明可以将神经网络精细表征逻辑严谨地解释为符号化交互概念。

具体来说，对于一个包含 n 个输入 token 的句子，存在 2ⁿ 种遮挡状态。我们证明，任何神经网络在这 n 个 token 上的输出置信度，都可以用符号化的「与或图模型」精确拟合。

「与或图模型」包含「与交互」和「或交互」的结构。以 “he is a green hand” 这个句子为例，“green hand” 就体现了「与交互」，它并非「绿颜色的手」，而是「新人」，这句话的意思是 “他是一位新人”。这种情况下，单个词的效用与两个词共同产生的效用，是 1 + 1 大于 2 的，也即涌现出新的意义，对输出结果的置信度会产生一个数值效应，比如说 0.2，当去掉 green 或 hand 任意一个，这个 0.2 得分就会消失。

「或交互」表示词之间存在并列关系，比如 “他兴高采烈、蹦蹦跳跳、眉飞色舞地去做某件事”，这三个词都表示 “很高兴”，它们之间的关系就构成了「或交互」。必须这三个单词都不出现，输出结果中 “很高兴” 的数值效应才会消失。

我们可以从给定的大模型与给定的数据中，提取出 100 多个这样的「与或交互」，加合起来在数值上正好等于这个大模型在这个句子上的输出。

不仅如此，我们发现等效与或交互理论具有几个关键特性。首先是「无限拟合性」，假设有 n 个单词，与或图模型可以完美拟合其 2ⁿ 个不同遮挡状态下的输出。其次是「稀疏性」，给定 n 个单词或 n 个 token 的输入句子，建模的交互数量通常在 150 个左右的量级，保证了内在解释的简洁性。

这是一个通用理论，不仅适用于自然语言生成模型，也适用于图像分类、三维点云分类、表格数据分类等各类神经网络模型。任何神经网络都可以得到稀疏的符号化的解释，这是基础理论的突破。

目前 AI 研究中有个领域叫机制可解释性（Mechanistic Interpretability），其主要目标是阐释神经网络中各个神经元的功能和作用，致力于理解每个神经元的激活模式所表征的特征或类别。但我认为这个方法是不严谨的，因为无法保证神经网络内部千千万万个神经元，每个神经元的语义都是严谨的。

还有特征可视化（Feature Visualization）或网络可视化（Network Visualization），也就是去可视化神经网络所建模的一些形象或特征并加以分析或优化，这些方法都无法严格定义语义的边界。基于交互的解释理论避开了这些问题，提供了一个等效的、可靠的符号化解释框架。

什么才能真正担当起大模型未来发展的根本性的第一性的解释？

前面提到的两个特性，无限拟合性与稀疏性，看似相互冲突，但能同时证明出来，就代表这是很强的一个证明。此外，我们的理论还展示出很多值得关注的特性，例如，迁移性。以人脸识别为例，如果某个交互（比如双眼与鼻子之间的关系）在训练样本中出现频率为 50%，在测试样本中出现频率为 48%，说明该任务具有良好的迁移性，如果测试样本中出现频率仅为 1% 或 2%，则代表迁移性差。我们发现，那些具有强烈数值效应的交互通常具有很强的迁移性。

第四个特性更有趣，不同规模的语言模型，比如 7B 和 20B、30B 的大模型，在处理相同输入时，其建模的交互有 70%~80% 是类似的。前者并非后者的蒸馏模型，而是两个企业各自发布的模型。这种「殊途同归」的现象表明，尽管模型结构、参数量和训练数据都不相同，但它们最终趋向于相似的表征方式。事实上，我们观察到模型规模越大，建模的交互越稀疏，而小模型则可能包含更多噪声交互。

在探讨神经网络的发展方向时，通常关注三个主要维度：损失函数的优化、数据处理方法的改进，以及网络结构的创新。然而，我们需要思考一个更为根本的问题：这些不同的技术路径最终应当在何处实现统一？

我们的观察表明，尽管技术路径各异，但不同方法在表征层面呈现出「殊途同归」的特性。这促使我们思考：内在表征交互是否在某种意义上就是神经网络的第一性解释？这也为我们理解神经网络的本质，包括重新思考泛化性、鲁棒性、信息表达能力等，提供了关键视角。

等效与或交互理论具有几个关键特性：稀疏性、无限拟合性、迁移泛化性，以及不同方法在表征层面呈现出殊途同归的特性。这促使我们思考：内在表征交互是否在某种意义上就是神经网络的第一性解释？

机器之心：为什么这些交互都集中在这 100 多个左右？

张拳石：需要指出，这并不是说神经网络或大模型等效于一个只有 100 多个节点的图模型。实际上，对于不同的输入句子或图片，每次触发的具体交互是各不相同的。我们只能事后基于模型输出来分析它建模了哪些与或交互，无法提前预知，也当然无法用简单的图模型替代神经网络。

幻觉、欺骗与创意：

本质都是内在短链混乱交互的集成

机器之心：Anthropic 的安全性报告显示大模型会出现有意识的欺骗行为，从可解释性的角度，这代表了什么问题？

张拳石：目前关于大模型的观点呈现两极分化：一方面，人们惊叹于它解决复杂数学竞赛题的能力；另一方面，又质疑它在一些简单问题上的表现（比如三位数乘法）。从与或交互的解释框架看，这两者其实是并行不悖的。

虽然从人类视角看，大模型似乎展现出复杂的推理能力，但解释发现，其中约 70%-80% 的建模交互实际是基于简单关联的「盲猜」。例如在 Llama 1 中，输入 “爱因斯坦提出广义相对论，认为重力是什么的扭曲？” 这个问题时，模型能正确输出 “spacetime”（时空）。

表面上看，模型似乎理解了深刻的物理概念，但实际分析发现，它主要依赖 “Einstein-of” 这样的一个简单与交互。也就是说，只要句子中同时出现 “爱因斯坦” 和 “of”，就会触发对 “space” 这个 token 的高置信度预测，其次是 “time” 这个 token。类似的，”相对论”、”光速”、”物理学” 等词也存在这种简单关联。很多这些局部的短链盲猜叠加在一起，才呈现出看似复杂的推理能力。

这种解释方法能帮助我们发现模型的内在表征错误。例如，在法律大模型评测中，有这样一个案例：张三走在路上用砖头打了李四，造成轻伤，第二天李四又遇到王五，王五跟李四有仇，心生歹念，然后用刀子刺伤李四，造成李四死亡。模型输出判定张三犯故意伤害罪，王五犯故意杀人罪，两个判决都是正确的。但通过解释发现，对张三量刑影响最大的与交互竟然是 “心生歹念” 这个描述王五心理活动的词，这显然是错误的判案依据。

评测法律大模型决策逻辑：输出结果正确，但内在逻辑张冠李戴。由上图可见，LLM 输出「故意伤害罪」，影响最大的与交互是 “心生歹念”，并且大量与交互都和 “死亡” 有关。也就是说，王五造成李四死亡这一结果，很大程度上影响了 LLM 对张三的判决。

在自动驾驶领域也存在类似问题。即便在非常简单的行人检测任务中，我们也发现许多相互抵消的噪声交互，一半支持 “是行人” 的判断，另一半却支持相反结论。这些高阶交互都构成了潜在风险。

基于等效交互概念解释，评测行人检测的可靠性：分类结果的极高正确率不代表神经网络决策逻辑完全正确。从上图可见，神经网络推理依赖的是鲁棒性低的高阶交互，而且交互中有很多正负抵消，体现了过拟合，并且建模的交互还覆盖了错误的图像区域。

因此，评估大模型不应仅关注端到端的正确率，更要从机理层面审视潜在风险。这些风险不仅体现在错误决策中，更潜藏在正确决策的过程中。

对 AI 统治人类的恐惧

实质是一个数学问题

张拳石：至于大模型的欺骗行为，人们为什么会对 AI 统治感到恐惧？这不仅是社会学和伦理学问题，很大程度上实际是数学问题：两个智能体之间能否建立有效沟通？能否将各自的内在推理机制转化为清晰、简洁的符号化系统并实现交流与对接？

人类也会撒谎。但对于机器，我们可以通过技术手段深入分析其内在逻辑，相当于把电极插在机器的「大脑」里，在这个意义上，机器反而比人类更加透明、可信，因为它的撒谎行为是可以被直接检测和理解的。

机器之心：您提到爱因斯坦的例子时，我想这可能基于统计规律——由于数据中存在大量 “爱因斯坦” 与 “时空”、”重力”、”物理学” 等词的关联，通过统计得出正确答案是可以理解的。但当您谈到法律大模型用不相关人员的心理行为来判定他人案情时，即便最终结果正确，其中的逻辑却是混乱的，这确实令人担忧。

张拳石：人工智能实际上包含两套系统：第一套是自底向上的系统，典型代表就是神经网络，直接从数据中得出结果；第二套是自顶向下的系统，目前主要是基于知识库和图模型的传统方法。虽然这些传统方法性能不佳，但我认为这可能是对第二套系统的错误认知——在深度学习之前，传统图模型效果不好，是因为过分依赖人类预设的规则。

从人类智能的发展来看，我们最初也没有高阶的认知和因果推理能力，都是从自底向上的应激反应开始。随着经验的积累，通过自我内观和总结，从大脑神经系统中提炼出理论来概括世界。人类做决策时通常是同时运用这两套系统。例如解数学奥赛题，并非一拿到题目就知道该用什么定理，而是先读题后产生直觉，觉得这个形式像什么，可能适用于什么定理，然后进行尝试，如果证明成功就说明路子对了，否则就需要新的直觉再去探索，直到解决问题，这是自底向上的感觉摸索和自顶向下的检验查证相结合的过程。

但目前的大模型只有第一套自底向上的系统。我们做可解释性研究，不仅仅是解释问题，实际上是在构建人工智能的第二套系统——自顶向下的系统，以获得真正的可靠性。我们需要用简洁的符号化交互来总结神经网络中的各种变化，这是第一步。第二步则是判断这些交互是否正确，比如在司法案例中，是否存在不同犯罪嫌疑人行为的张冠李戴。

当前人工智能发展在概念上缺少第二套系统，需要通过可解释性研究来发现问题。仅仅依靠不断收集新的数据、清洗数据，然后反复试验、训练的方式并不高效。

通过符号化交互表征

解释神经网络泛化性和鲁棒性的根因

机器之心：DeepSeek R1的创新点之一是直接评估推导结果而非用价值函数对推导过程进行评估，这也给了大模型自我纠错的可能，包括 DeepSeek R1-Zero 的 Aha Moment，模型 CoT 的自动涌现。不少专业人士认为，对于愈加复杂且开放性的推理问题，基于规则逻辑的评估难以胜任，需要用结果导向替代过程导向的评估机制。这种观点您怎么看？

张拳石：基于结果导向的评估存在两个主要问题。首先，它无法保证内部机理的正确性，仅能确保最终答案正确。其次，当前这种端对端的训练和端对端的评测效率极低，在大模型阶段已经到了需要用全网数据训练，花费数千万甚至上亿美金训练一个基座模型的地步。

目前深度学习领域存在一个问题：总是直接将技术与性能对接，认为有了某项技术就能提升性能，没有就会导致性能下降。这个认知是不完整的。严格来说，应该是技术与知识表征建立关系，知识表征再与性能建立关系，这是一个三者关系。但由于知识表征难以量化，我们难以确定数据清洗或思维链对表征的具体影响。现在更可靠的做法是：第一，明确技术与交互表征的关系，即哪些技术能提升交互的数量和质量；第二，研究表征与性能之间的关系，例如交互数量的提升是否带来性能提升，交互复杂度的提高是否影响鲁棒性等。

机器之心：在进行多模态数据对齐和融合时，有时不同数据之间会相互矛盾，提升一种数据的性能可能导致另一种数据性能下降。通过内在机制的理解是否有助于解决这个问题？

张拳石：这个问题恰恰反映了当前深度学习领域的困境，也即缺乏准确的视角去理解问题的本质。我建议从交互的角度来看：当多个模态的数据结合后，表征数量是增加还是减少？这些表征是关注到正确的交互还是错误的交互？比如法律大模型的张冠李戴问题，在表征上是可以明确区分的。可以通过表征的数量变化、质量变化和复杂度变化来判断性能下降的原因，而不是简单地说某些数据无法同时训练。

实际上，这个问题可能与数据无关。同样结构的神经网络，在不同的初始化状态下，可能会在相同任务上表现出不同的性能。这涉及到神经网络底层参数对特定类型任务或样本的天然建模能力，类似于「彩票理论」所描述的情况。这是神经网络内在难以克服的特性。同样的数据，在网络训练的不同阶段，表现也完全不同，不能一概而论。

解释性研究的一个重要部分是解释预训练神经网络的知识表征，进而解释其性能，包括泛化性、鲁棒性等。这比单纯去解释知识表征更重要，因为我们通常更关心的是如何提升性能。

关于泛化性，我们发现交互的阶数越高，泛化性越差。二阶交互指两个单词之间的关系，五阶则指 5 个单词的关系。比如像「白日依山尽，黄河入海流」这样需要多个字词精确匹配的高阶交互，其泛化性就很差。当我们将表征映射到 100-150 个交互时，这个问题就变成可计数的。例如，当某个交互（如人脸识别中眼睛和鼻子的关系）在训练样本中出现频率为 50%，在测试样本中也有接近的出现频率（如 49%），那么这个交互的泛化性就很高。

这样一来，泛化性评测就变成类似于对考试知识点掌握情况的评测，有多少个交互泛化了，就掌握了多少个知识点，不仅如此，还能清晰看到什么时候泛化性好，哪些交互泛化性好。神经网络整体的泛化性的内在机理并不在于测试样本的正确率，而是可以通过各个交互的泛化性来解释。

关于对抗鲁棒性，既然神经网络的分类置信度可以表示为约 120 个交互的和，那么每个交互的对抗敏感度就可以解释整体的对抗敏感度。我们发现，低阶交互（一两个 token 之间的交互）对抗敏感度较低，而高阶交互的敏感度呈指数级增长。对此，我们有完整的数学证明。这就从根本上解释了神经网络鲁棒性的内在机理。

交互解释反馈指导模型训练

增加对模型和工程技术的可控性

张拳石：从实用角度说，我们也在创业，希望这套理论能够切实帮助大模型公司解决实际问题。其中最关键的是要回答：在什么时候停止训练模型才是最合适的，也就是说，什么时候模型已经获得了正确的表达能力。

证明并成功预测了神经网络（拟合阶段与过拟合阶段）两阶段现象：神经网络在第一阶段消除高阶交互，最终只学习最低阶的交互；第二阶段学习阶数逐渐增大的交互。

我们可以从理论上证明，任何神经网络的训练都可以分为两个阶段。第一阶段始于神经网络的参数随机初始化时期，此时网络还不存在有意义的表征，所有表征都如同一团乱麻，充满噪声。这时模型会建立大量复杂的交互关系，但这些交互大多是无序的。神经网络中的复杂交互呈纺锤形分布：中等复杂度的交互数量最多，而极高复杂度和极低复杂度的交互相对较少。神经网络的学习过程可以分为两个阶段：

第一阶段是交互去噪阶段。系统会逐步删除那些不具备泛化性的噪声交互，专注于学习最可靠、最简单的交互。在这个阶段，训练损失和测试损失的值基本保持一致。

第二阶段是复杂度提升阶段。由于训练数据的复杂性，仅依靠简单交互无法完成分类任务，系统开始逐渐提升交互复杂度，从两个单词到 3、4 个单词的组合，复杂度不断升高以处理更复杂的数据。在这个阶段，训练损失和测试损失的差值会逐渐扩大。虽然交互数量在增加，但交互质量和泛化性在下降。

这个两阶段现象恰好反映了神经网络内在的学习可靠性和泛化性机理。传统方法是通过损失函数来评估泛化性：测试损失与训练损失的差值越大，表示过拟合（over-fitting）程度越高。我们发现，第一阶段向第二阶段的转折点，恰好是训练损失与测试损失开始从接近于零的差值逐渐扩大的时刻。

这个机制对大模型训练极其重要。用掷骰子来打个比方：假设有 6 个骰子，代表 6 个不同的数据集或任务。传统训练方法就像是盲目摇骰子，可能最终得到 4 个点数为 6，2 个点数为 1、2 的结果，意味着在 4 个任务上表现优秀，2 个任务上表现很差。但再训练成本过高且结果也无法保证，只能接受这个并非最优的结果。

但如果能够实时观测大模型在不同数据集上的两阶段现象，情况就不同了。因为每个数据集的拟合点是不同的：有些数据集很快就进入第二阶段，有些可能训练了三四周还停留在第一阶段，还有些可能已经过拟合需要停止训练。这就像对训练过程进行 CT 扫描，让我们能够看到模型在每个数据集上的动态变化，知道哪些数据已经过拟合，哪些还欠拟合。

回到掷骰子的比喻，这种方法相当于能够透视骰子，每当看到摇出一个 6 就及时停下来保留，再接着继续摇，直到全部骰子都是 6，而不是盲目接受一次性的随机结果。

我们正在与工业界的多家大模型公司开展产业合作，并开发出一套成熟的软件系统，用于动态跟踪和比较大模型的表征质量。即使两个大模型之间存在很多相似的交互模式，我们依然能够量化它们之间的差异。例如，有些交互是千问大模型独有而 DeepSeek 没有的，反之亦然。虽然大部分知识是共通的，但这些独特的交互模式恰恰体现出模型间的差异。这种评测方法就像 CT 扫描，虽然不直接治疗疾病，但能准确定位问题所在，这是最关键的。

[上图] 相比于 LLaMA-7B，原始的 Aquila-7B 建模更多高阶交互，表征质量更差：两模型建模了相似的低阶交互，Aquila-7B 建模了大量高阶交互，LLaMA-7B 没有建模相似的高阶交互。[下图] 新训练的 Aquila2-34B 建模了更多的低阶交互，表征质量更好：两模型建模了相似的低阶交互，LLaMA-7B 建模的大量高阶交互没有被 Aquila2-34B 建模。

我们不能继续采用「开盲盒」的方式，只是一味投入更多资金、使用更多显卡来训练。正所谓知己知彼，百战不殆。通过这套系统，可以清晰地看到模型在同一数据集上，训练一天前后或几小时前后的变化：是高阶复杂交互在增长，还是第一阶交互在增长？模型是处于第一阶段的去噪阶段，还是第二阶段的过拟合阶段？这些信息能够直接反映模型训练质量和训练效率，实现对大模型泛化性变化趋势的实时监控和训练指导。

机器之心：您开发的这套软件系统已经能够准确观察到这些现象了吗？

张拳石：是的。虽然我们还没有在大规模的模型上进行测试，但在各种中小型模型的测试中都清晰地观察到这种现象。而且，这背后有严格的理论支撑，大量证据都证明了这种两阶段现象的存在。

有人可能会担心，获取不同遮挡状态下的所有输出会带来直接蒸馏的风险。实际上我们并不需要大量样本来进行评测。当错误率在 30% 左右时，30.5% 还是 30.3% 的差异并不显著，可能只需要几百个样本就足够评测。理论上讲，仅凭这几百个样本是无法完成知识蒸馏的，因此可以保证安全性。

更重要的是，我们的软件系统已经相当成熟。如果客户的任务或大模型涉及商业机密，可以直接将软件部署到客户的本地设备上运行，确保数据安全。

给大模型评测一个硬核指标

机器之心：对商业公司，特别是领先的大模型公司来说，可解释性似乎与性能并无直接关联。比如用您刚才提到的法律大模型例子，如果输出结果都是正确的，但用您的软件检测发现内部逻辑存在问题，公司可能就没有动力公布这种检测结果。另外，在一些不需要严谨性的应用场景下，比如小说创作，我们可能更需要天马行空的想象力。这种情况下，您如何看待可解释性的价值？

张拳石：从商业发展的大方向来看，当前大模型领域是存在严重问题的。虽然大模型被视为高科技产业，但却缺乏一个权威的硬核指标来严格评价整个领域的所有大模型。现有的评价方式主要依赖于正确性测试（benchmark）、价值对齐评估，以及用户的主观使用体验。

这种评价体系存在明显缺陷，比如榜单评测可以通过针对性训练来「应试」，大模型公司有充足的资源去收集数据刷榜，导致评测的可靠性大打折扣。最终导致我们难以准确判断哪个大模型更优秀。

这种情况不利于整个行业的发展：

对大公司而言：比如 DeepSeek 做得很好，但除了几位大佬的认可外，没有硬性指标能证明它在哪些方面领先了几个世代。现有的各种 benchmark 都可能被应试攻克，使公司难以建立起扎实的技术壁垒。
对小公司而言：他们可能在特定领域（如金融、法律）的性能确实超过了知名大模型，但由于传统榜单的不可靠，用户仍然倾向于选择使用知名大模型。这使得小公司即便做出了优质产品也难以获得认可。

我们需要从内在机理的角度建立新的评测体系。虽然可以通过应试教育让输出的答案正确，但要修正内在表征的逻辑混乱、张冠李戴问题却很难做到。这种稳定的评测体系能够：

准确显示与前沿大模型的差距
帮助优秀的小公司脱颖而出
让领先的大模型巩固竞争优势

其次，传统评测主要关注错误率，但真正的威胁在于那些表面正确但存在潜在风险的案例。比如在法律领域，明显错误的判决容易被发现（比如偷东西判死刑），但我们更需要检测那些看似正确的判决背后的潜在伦理风险。还有自动驾驶的行人检测，每一次将出事故又没出事故时，需要检测并识别其潜在的危害。

第三，从政府采购和市场准入的角度看，一旦模型的内部机制被解释清楚，人们的态度就会发生改变。人类作为整体需要拥有知情权，而且当问题出现时需要明确责任归属。通过可解释性分析，我们能够确定问题的具体原因：

如果出现张冠李戴，说明数据清理不够
如果某些应该学习的交互没有学到，说明数据量不够
如果特征单一，说明数据多样性不足

未来，大模型的发展需要新的评测角度和硬核指标。因为切实提升性能需要消耗大量成本，而仅仅追求表面效果，比如说某个大模型靠说俏皮话、编段子来博得关注从而获取用户，这是一种非常危险的信号。到那时各家人工智能公司应该追求什么？我们需要更深入地评估模型的底层机制。

解释性技术：大模型训练的「CT 扫描」

机器之心：从您的思路来看，这似乎是一条完全不同于传统 Scaling 的路线。2025 年大家关注提升大模型的推理能力，无论是增强思维链还是增加推理时计算，从您的分析看，是不是意味着所有这些训练方法都要推倒重来？

张拳石：当前很多技术确实有效，这不是一个新理论能够轻易撼动的。我认为解释性技术应该与传统技术形成互补关系。传统的经验性技术优势在于能实打实地提升性能，但缺乏可控性——它并不能保证在每个任务、每个大模型、每个时刻都一定能像 1+1=2 那样稳定地提升性能。

解释性技术正好可以弥补这一点，增加模型的可控性。虽然我们无法预知某种方法是否一定有效，但我们能够清楚地看到，当使用思维链或引入新数据后，模型的表征在交互数量和复杂度上的变化。这就像医院的 CT 检查，虽然 CT 本身不能治病，但没有 CT 就难以准确诊断和治疗。

我们的目标是从当前的端对端学习，发展为交流式学习。理想状态下，这种学习方式类似于人类交流，我们能够通过中层的知识表达指标来观察问题，从而量化不同经验性算法的有效性。本质上，我们需要建立起经验性算法、知识表征和性能这三者之间的关系，而不是简单认为某种方法（比如加入思维链或数据清洗）一定能提升性能。

我们的方向是将黑盒训练转变为灰盒训练，通过实时观测来判断训练何时该停止、何时开始过拟合，这可能是未来的发展趋势。

机器之心：AlphaZero 证明了 AI 在没有人类干预的情况下能够超越人类。您提到的交流式学习会不会某种程度上限制了 AI 超越人类的可能？

张拳石：这种反馈式交流学习与监督学习是不同的。监督学习是强制性地让大模型拟合人类的思维、知识和推理结构。我们的方法只是去排除最明显的错误，至于具体学习哪些交互，这是由大模型自主决定的，我们只是观察者，并没有在实质上限制它的表征。

有了这样的理论技术，讨论就不仅限于大模型是否好或是否能超越人类这样的二元问题，而是能看到大模型在不同阶段面临的根本问题，以及相同数据集在不同大模型上的具体问题，然后真正让大模型学得越来越好。

机器之心：您刚才多次提到长链、严谨的思维链，对于数学和代码大模型，其推理天然就是一步一步可验证的。有观点认为可以使用大模型的这种 CoT 数据来反哺训练，您觉得这种方法是否可行？存在哪些潜在的风险？

张拳石：使用大模型生成思维链去反哺训练是很好的，但从更严谨的角度看，当数据规模达到一定量级后，讨论数据的简单复杂、质量高低、多样性等问题就变得完全不同了，并不存在通常意义上的简单样本、复杂样本。

同一个神经网络在不同初始化状态下的表现可能完全不同：某些样本在第一次训练中产生可泛化的交互，但在第二次训练中却产生难以泛化的高阶的奇怪交互。这说明样本的质量、泛化性和可靠性并非其固有属性，而是需要与神经网络的契合程度搭配起来一同考虑。

我们需要将话语权交给神经网络，让它告诉我们哪些样本可靠，哪些样本不可靠。解释性技术就是在做这项工作，而不是简单地看数据集。经验性技术的好坏需要有一套严格的算法体系来量化和评测，而不是盲目地认为加入思维链、加入更多数据就一定会带来性能提升。

十年磨一剑：

如何找到 AI 研究中的「大问题」

机器之心：对于想要深入研究 AI 可解释性的年轻学者，您有什么建议？

张拳石：我从 2015 年开始转向解释性研究。当时还没有大模型，虽然深度学习蓬勃发展，神经网络展现出了完全不同的智能形式，性能也在大幅提升，但我注意到一个潜在问题：人类可操作的维度在不断减少，对知识的掌控在不断丧失。

传统神经网络时代，我们基本上只能做两件事：调整网络结构和损失函数。到了大模型时代，由于巨大的训练成本，对绝大多数研究者而言，连这两点都难以调整了。现在的研究者只能专注于搜集数据、数据清洗和提示词工程。尽管从事 AI 研究的人爆炸性增长，但都挤在很小的研究空间里，发展的维度在不断降低。

我选择做解释性研究，是因为它是一种自顶向下的系统，是对神经网络的补充。我认为研究可以分为两类：一类是工程性研究，重点在于如何把问题做好，把性能提升到极致；一类是理论性研究，重点在于问题的选择，选好问题的重要性远远超过把性能提高。

那对于理论性研究，如何选择好的问题呢？我给自己定了三个标准：

要找到共性问题。不是表面上的问题（如训练成本高、精度不够），而是能覆盖领域中大部分问题根本原因的交叉点。找到这样的问题本身就是一项异常艰巨的任务，但一旦找到，别人就无法忽视你的工作。
这个问题必须能进行数学建模，有明确的边界，能够被证明或证伪。回顾神经网络发展历史：最初残差网络被视为最强，现在是 Transformer，未来可能还会有新的结构；生成网络方面，从 VAE 到 GAN 再到 diffusion model。随大流看似安全，但从根本意义上说，这更像是一种赌博——当问题没有严格的证明或证伪机制时，风险反而更大。
必须走一条前人很少走的路。成功的根本不在于比拼智商或投入，而在于找到没有人走过的路。就像解释性研究，我不仅要解释知识表征，还要解释泛化性、鲁棒性等等一系列，很多工作我并没有在这里讲，但这是一条很长的路线图，你需要规划出来，这样才能建立起自己的影响力。

在我看来，所谓十年磨一剑，相比用十年时间去优化一个复杂系统，更多是用十年去等待一个真正值得投入的问题，一个同时满足这三个条件的问题，然后再花 10 年乃至 20 年去证明一些结论，解决这个问题。

机器之心：如果花了 10 年时间没等到这样的问题，或者最后发现等错了该怎么办？假如用交互理论解释神经网络内在表征最终被证明是错的，您会怎么办？

张拳石：这是个很好的问题，实际上很多学生也这样问我。世界上没有 100% 正确或错误的方向，我前面提到的三个条件，正是确保你的努力不会付诸东流的保障。

2017 年我在知乎首次发文，讨论可解释性与深度学习的未来发展，当时就发现这是一个大家公认很重要但又无从下手的问题。虽然相关论文数不胜数，但真正从理论严谨性角度直面这个问题的却少之又少。

这中间有很长一段时间我也在探索，一直在探索，因为被时代大浪潮裹挟，很容易就迷失方向。做研究不是只做一年两年，要在科研道路上走得长远，可能需要 10 年、20 年，关键是要找到一个契机，让自己有资格去定义问题。虽然找到一个既是本质性、又能进行数学建模、还能开辟新路径的问题很难很难，但这是切实推动领域发展的必经之路。

嘉宾简介

张拳石，上海交通大学电院计算机科学与工程系长聘教轨副教授，博士生导师，入选国家级海外高层次人才引进计划，获 ACM China 新星奖。2014 年获得日本东京大学博士学位，2014-2018 年在加州大学洛杉矶分校（UCLA）从事博士后研究。在神经网络可解释性方向取得了多项具有国际影响力的创新性成果。担任 TMLR 责任编辑，NeurIPS 2024 领域主席，承担了 IJCAI 2020 和 IJCAI 2021 可解释性方向的 Tutorial，并先后担任了AAAI 2019, CVPR 2019, ICML 2021 大会可解释性方向分论坛主席。

往期访谈

小米 Daniel Povey：后语音识别时代，人工智能走向何方？
清华翟季冬：DeepSeek 百倍算力效能背后的系统革命
北大王立威：理论视角看大模型，涌现、泛化、可解释性与数理应用
腾讯王迪：万亿 MoE 大模型系统工程之道
上海交大卢策吾：关于具身智能，Scaling Law 和大模型

（文：机器之心）

2025 年 6 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复