OpenAI推出的AI基准测试，却让Claude拿了第一名？！

为了准确评估 AI 模型的“实际”编程能力，OpenAI 最近推出了一个全新的基准测试，叫做：SWE-Lancer。

SWE，全称“Software Engineering”，中文意为“软件工程”；Lancer，源自单词“Freelancer”，“自由职业者”的意思。所以，合在一起，SWE-Lancer 要评估的就是 AI 模型在真实的软件工程自由职业任务中的表现。

SWE-Lancer 基准测试由来自 Upwork 自由职业平台的超过 1400 个真实的软件开发任务构成，涵盖从 bug 修复、新功能添加到代码重构等多种类型，并具有不同的复杂度和对应的实际支付金额，这些问题总价值达 100 万美元。

其实 AI 领域关于评估编程能力的基准测试已经有很多了，比如 Codeforces 和 SWE-bench Verified，但他们有一个明显的特点：测试任务是孤立的，如代码生成、算法问题或特定功能的实现。这些任务能够评估模型的基本编程能力，但却无法反映真实的软件开发工作。现实世界中的软件开发涉及的任务会更复杂，包含从前端到后端、从功能到系统架构多方面内容。因此，需要一个基准测试来评估 AI 模型在全栈软件开发任务中的表现。

SWE-Lancer 应运而生。

SWE-Lancer 测试集包含两类任务：独立开发任务（IC SWE） 和 管理任务（SWE Manager）。

独立开发任务会要求 AI 模型解决实际的软件问题，从简单的bug修复到复杂的新功能实现，并通过端到端的自动化测试进行评估。管理任务则让 AI 模型扮演技术经理的角色，选择最佳的技术实现方案，评估并决定多个解决方案中的最佳选项。

这些任务的奖励基于真实世界的支付金额，反映了任务的实际经济价值。任务越难，支付金额就越高。

测评结果

上测评结果。

真实世界中经济价值100万美元的软件开发任务，Claude 3.5 Sonnet 完成度最高，但也仅有40.3万美元的完成度，百分比40.3%；第二名为 o1，完成度38%；接下来说不会思考的 GPT-4o，完成度30.3%。

Claude 3.5 Sonnet 模型的编程能力再次在这个测评中得到了验证。

最后，不得不说，OpenAI 能把这次测评的结果如此“光明正大”的公布，主动承认自己的不足，勇气可嘉！

我是木易，一个专注AI领域的技术产品经理，国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”，致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”，用AI为你的未来加速。

（文：AI信息Gap）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

测评结果

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复