刚刚，OpenAI发布GPT-4.1！全系支持百万token上下文，全方位碾压GPT-4o并且价格更低

机器之心报道

编辑：杜伟

今天凌晨，OpenAI 的新系列模型 GPT-4.1 如约而至。

该系列包含了三个模型，分别是 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano，它们仅通过 API 调用，并已向所有开发者开放。

随着该系列模型在很多关键功能上提供了类似或更强的性能，并且成本和延迟更低，因此 OpenAI 将开始在 API 中弃用 GPT-4.5 预览版。弃用时间为三个月后（2025 年 7 月 14 日），从而为开发者提供时间过渡。

OpenAI 表示，这三个模型的性能全面超越了 GPT-4o 和 GPT-4o mini，并在编程和指令遵循方面均有显著提升。它们还拥有更大的上下文窗口 —— 支持高达 100 万个上下文 token，并且能够通过改进的长上下文理解更好地利用这些上下文。知识截止日期已更新至 2024 年 6 月。

总的来说，GPT-4.1 在以下行业标准指标上表现出色：

编程：GPT-4.1 在 SWE-bench Verified 测试中得分为 54.6%，比 GPT-4o 提升 21.4%，比 GPT-4.5 提升 26.6%，使其成为领先的编程模型。
指令遵循：在 Scale 的 MultiChallenge 基准测试（衡量指令遵循能力的指标）中，GPT-4.1 得分为 38.3%，比 GPT-4o 提升了 10.5%。
长上下文：在多模态长上下文理解基准测试 Video-MME 中，GPT-4.1 创下了新的最高纪录 —— 在长篇无字幕测试中得分为 72.0%，比 GPT-4o 提升了 6.7%。

虽然基准测试成绩非常不错，但 OpenAI 在训练这些模型时重点关注了实际效用。通过与开发者社区的密切合作和伙伴关系，OpenAI 针对开发者应用最相关的任务优化来这些模型。

为此，GPT-4.1 模型系列以更低的成本提供了卓越的性能。这些模型在延迟曲线的每个点上都实现了性能的提升。

GPT-4.1 mini 在小型模型性能上实现了显著飞跃，甚至在多项基准测试中超越了 GPT-4o。该模型在智能评估方面与 GPT-4o 旗鼓相当甚至超越，同时将延迟降低了近一半，成本降低了 83%。

对于要求低延迟的任务，GPT-4.1 nano 是 OpenAI 目前速度最快、成本最低的模型。该模型拥有 100 万 token 上下文窗口，在小规模下仍能提供卓越的性能，在 MMLU 测试中得分达 80.1%、在 GPQA 测试中得分达 50.3%、在 Aider 多语言编码测试中得分达 9.8%，甚至高于 GPT-4o mini。该模型是分类或自动补全等任务的理想选择。

在指令遵循可靠性和长上下文理解方面的改进，也使 GPT-4.1 模型在驱动智能体（即能够代表用户独立完成任务的系统）方面更加高效。结合 Responses API 等原语，开发者现在可以构建在实际软件工程中更有用、更可靠的智能体，从大型文档中提取洞见，以最少的手动操作解决客户请求，以及执行其他复杂任务。

同时，通过提升推理系统的效率，OpenAI 得以降低 GPT-4.1 系列的价格。GPT-4.1 的中等规模查询成本比 GPT-4o 低 26%，而 GPT-4.1 nano 是 OpenAI 迄今为止最便宜、速度最快的模型。

对于重复传递相同上下文的查询，OpenAI 将新系列模型的即时缓存折扣从之前的 50% 提升至 75%。此外，除了标准的每 token 成本外，OpenAI 还提供长上下文请求，并且无需额外付费。

OpenAI CEO 山姆・奥特曼表示，GPT-4.1 不仅基准测试成绩优异，并且专注真实世界的实用性，应该会令开发者开心的。

看起来，OpenAI 实现了自家模型能力上的「4.10﹥4.5」。

图源：https://x.com/stevenheidel/status/1911833398588719274

编程

GPT-4.1 在各种编码任务上都显著优于 GPT-4o，包括智能体解决编码任务、前端编程、减少无关编辑、可靠遵循 diff 格式、确保工具使用一致性等任务。

在衡量真实世界软件工程技能的 SWE-bench Verified 测试中，GPT-4.1 完成了 54.6% 的任务，而 GPT-4o（2024-11-20）完成了 33.2%。这反映了该模型在探索代码库、完成任务以及生成可运行和通过测试的代码方面的能力提升。

对于需要编辑大型文件的 API 开发者来说，GPT-4.1 在处理各种格式的代码 diff 时更可靠。在 Aider 的多语言差异基准测试中，GPT-4.1 的得分是 GPT-4o 的两倍多，甚至比 GPT-4.5 高出 8%。这项评估既衡量了跨多种编程语言的编码能力，也衡量了模型在整体和 diff 格式下生成更改的能力。

OpenAI 专门训练了 GPT-4.1，使其能够更可靠地遵循 diff 格式，这使得开发者只需输出更改的行，而无需重写整个文件，节省成本和延迟。同时，对于喜欢重写整个文件的开发者，OpenAI 将 GPT-4.1 的输出 token 限制增加到 32,768 个 token（高于 GPT-4o 的 16,384 个 token）。OpenAI 还建议使用预测输出来减少完整文件重写的延迟。

GPT-4.1 在前端编程方面也较 GPT-4o 有了显著提升，能够创建功能更强大、更美观的 Web 应用。在 head-to-head 对比中，付费人工评分员 80% 的评分结果显示，GPT-4.1 的网站比 GPT-4o 的网站更受欢迎。

除了上述基准测试之外，GPT-4.1 在遵循格式方面表现更佳，可靠性更高，并且减少了无关编辑的频率。在 OpenAI 内部评估中，代码中的无关编辑从 GPT-4o 的 9% 下降到了 GPT-4.1 的 2%。

指令遵循

GPT-4.1 能够更可靠地遵循指令，并在各种指令遵循评估中实现了显著的改进。OpenAI 开发了一个内部指令遵循评估系统，用于跟踪模型在多个维度和几个关键指令执行类别中的表现，包括：

格式遵循。提供指令，指定模型响应的自定义格式，例如 XML、YAML、Markdown 等。
负面指令。指定模型应避免的行为，例如：「不要要求用户联系支持人员」。
有序指令。提供一组模型必须按给定顺序遵循的指令，例如：「首先询问用户的姓名，然后询问他们的电子邮件地址」。
内容要求。输出包含特定信息的内容，例如：「编写营养计划时，务必包含蛋白质含量」。
排序。以特定方式对输出进行排序，例如：「按人口数量对响应进行排序」。
过度自信。指示模型在请求的信息不可用或请求不属于给定类别时回答「我不知道」或类似的内容，例如：「如果您不知道答案，请提供支持联系电子邮件地址」。

这些类别是根据开发者的反馈得出的，表明了哪些指令遵循对他们来说最相关且最重要。在每个类别中，OpenAI 将其分为简单、中等和困难提示。GPT-4.1 在困难提示方面的表现尤其优于 GPT-4o。

多轮指令遵循对许多开发者来说至关重要。对于模型来说，在对话中保持连贯性并跟踪用户之前输入的内容至关重要。GPT-4.1 能够更好地从对话中的过往消息中识别信息，从而实现了更自然的对话。Scale 的 MultiChallenge基准测试是衡量这一能力的有效指标，GPT-4.1 的表现比 GPT-4o 提高了 10.5%。

GPT-4.1 在 IFEval 上也得到了 87.4%，而 GPT-4o 的得分为 81.0%。IFEval 使用带有可验证指令的提示，例如指定内容长度或避免使用某些术语或格式。

更佳的指令遵循能力使现有应用程序更加可靠，并支持此前受可靠性低下限制的新应用程序。早期测试人员指出，GPT-4.1 可以更加直观，因此 OpenAI 建议在提示中更加明确和具体。

长上下文

GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 最多可处理 100 万个上下文 token，而之前的 GPT-4o 模型最多可处理 12.8 万个。100 万个 token 相当于 8 个完整的 React 代码库，因此长上下文非常适合处理大型代码库或大量长文档。

GPT-4.1 能够可靠地处理 100 万 token 上下文长度的信息，并在注意相关文本和忽略长短上下文干扰项方面比 GPT-4o 更加可靠。长上下文理解是法律、编程、客户支持以及许多其他领域应用的关键能力。

OpenAI 演示了 GPT-4.1 检索位于上下文窗口内各个点的隐藏小信息（needle）的能力。GPT-4.1 能够持续准确地检索所有位置和所有上下文长度的 needle，最大检索量可达 100 万个 token。无论这些 token 在输入中的位置如何，GPT-4.1 都能有效地提取与当前任务相关的细节。

然而，现实世界中很少有任务像检索一个显而易见的「needle 」答案那样简单。OpenAI 发现用户经常需要模型检索和理解多条信息，并理解这些信息之间的相互关联。为了展示这一能力，OpenAI 开源了一项新的评估：OpenAI-MRCR（多轮共指）。

OpenAI-MRCR 测试模型识别并消除上下文中隐藏的多个「needle 」的能力。评估包括用户和助手之间的多轮合成对话，用户要求助手撰写一篇关于某个主题的文章，例如「写一首关于貘的诗」或「写一篇关于岩石的博客文章」，接着会在整个上下文中插入两个、四个或八个相同的请求，最后模型必须检索与特定实例对应的响应（例如「给我第三首关于貘的诗」）。

挑战在于这些请求与上下文其余部分的相似性，模型很容易被细微的差异误导，例如关于貘的短篇故事而不是诗歌，或者关于青蛙的诗歌而不是貘。OpenAI 发现，GPT-4.1 在上下文长度高达 128K 个 token 时的表现优于 GPT-4o，并且即使长度高达 100 万个 token 时也能保持强劲的性能。

OpenAI 还发布了 Graphwalks⁠，这是一个用于评估多跳长上下文推理的数据集。许多开发者在长上下文用例中需要在上下文中进行多次逻辑跳跃，例如在编写代码时在多个文件之间跳转，或在回答复杂的法律问题时交叉引用文档。

理论上，模型（甚至人类）可以通过一遍遍阅读提示词来解决 OpenAI-MRCR 问题，但 Graphwalks 的设计要求在上下文中的多个位置进行推理，并且无法按顺序求解。

Graphwalks 会用由十六进制哈希值组成的有向图填充上下文窗口，然后要求模型从图中的随机节点开始执行广度优先搜索 (BFS)。然后要求它返回一定深度的所有节点。结果显示，GPT-4.1 在此基准测试中达到了 61.7% 的准确率，与 o1 的性能相当，并轻松击败了 GPT-4o。

视觉

GPT-4.1 系列模型在图像理解方面同样非常强大，尤其是 GPT-4.1 mini 实现了重大的飞跃，在图像基准测试中经常击败 GPT-4o。

以下为 MMMU（回答包含图表、图解、地图等的问题）、MathVista⁠（解决视觉数学问题）、CharXiv-Reasoning（回答科学论文中关于图表的问题）等基准上的表现对比。

长上下文性能对于多模态用例（例如处理长视频）也至关重要。在 Video-MME（长视频无字幕）中，模型基于 30-60 分钟长的无字幕视频回答多项选择题。GPT-4.1 达到了最佳性能，得分为 72.0%，高于 GPT-4o 的 65.3%。

更多测试指标请参考 OpenAI 原博客。

博客地址：https://openai.com/index/gpt-4-1/

（文：机器之心）

2025 年 6 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

发表评论取消回复