SWE-Lancer 归档

OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer

2025年4月7日23时作者 AI前线

OpenAI发布SWE-Lancer基准测试评估AI大语言模型在自由职业软件工程任务中的表现，涵盖独立编码、UI/UX设计等任务。该项目揭示了现有模型在实际应用中的挑战与提升空间。

OpenAI推出的AI基准测试，却让Claude拿了第一名？！

2025年2月21日14时作者 AI信息Gap

OpenAI 推出 SWE-Lancer 基准测试，评估 AI 模型在真实软件工程任务中的表现，涵盖独立开发和管理任务，涉及多种类型和复杂度的软件开发任务。

OpenAI掀「百万美金」编程大战！Claude 3.5 Sonnet狂赚40万拿下第一

2025年2月19日16时作者新智元

OpenAI发布SWE-Lancer基准测试，评估AI模型在现实任务中的编码能力。Anthropic的Claude 3.5 Sonnet表现最佳，挣得403,325美元报酬，远超GPT-4o和o1模型。

Claude挣钱强于o1！OpenAI开源百万美元编码基准，检验大模型钞能力

2025年2月19日12时作者机器之心

OpenAI 推出并开源 SWE-Lancer 基准测试，用于评估 AI 大模型在现实世界软件工程任务中的表现。包含 1400 多个自由软件工程任务，总价值 100 万美元。包括自家 GPT-4o、o1 和 Anthropic Claude 3.5 Sonnet 在内的前沿模型未能解决大多数任务，仅 Claude 3.5 Sonnet 拿到最高报酬 403,325 美元。

OpenAI推出真实世界百万报酬AI编程能力测试基准：实测Claude 3.5 最强！

2025年2月19日12时作者 AI寒武纪

OpenAI联合一众大佬发布SWE-Lancer，一个评估前沿LLM在真实软件工程任务中的基准测试。它从Upwork精选了超过1400个真实的软件工程任务，总价值高达100万美元。SWE-Lancer包含个人贡献者和技术领导者的两种类型的任务，采用端到端测试模拟真实环境。研究结果显示模型表现仍有提升空间，OpenAI开源了数据集以促进更多研究。

全球首测！OpenAI开源SWELancer，大模型冲击100万年薪

2025年2月19日8时作者 AIGC开放社区

专注AIGC领域的专业社区分享了OpenAI开源的SWE-Lancer测试基准，用于评估大模型处理真实开发任务的能力。该测试集包含1488个真实的开发任务，总价值达100万美元。SWE-Lancer采用端到端测试方法和用户工具来模拟真实场景，揭示了大模型在复杂软件工程任务中的局限性。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31