Upwork归档 - 每时AI

OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer

下午11时 2025/04/07 作者 AI前线

OpenAI发布SWE-Lancer基准测试评估AI大语言模型在自由职业软件工程任务中的表现，涵盖独立编码、UI/UX设计等任务。该项目揭示了现有模型在实际应用中的挑战与提升空间。

OpenAI推出真实世界百万报酬AI编程能力测试基准：实测Claude 3.5 最强！

下午12时 2025/02/19 作者 AI寒武纪

OpenAI联合一众大佬发布SWE-Lancer，一个评估前沿LLM在真实软件工程任务中的基准测试。它从Upwork精选了超过1400个真实的软件工程任务，总价值高达100万美元。SWE-Lancer包含个人贡献者和技术领导者的两种类型的任务，采用端到端测试模拟真实环境。研究结果显示模型表现仍有提升空间，OpenAI开源了数据集以促进更多研究。

全球首测！OpenAI开源SWELancer，大模型冲击100万年薪

上午8时 2025/02/19 作者 AIGC开放社区

专注AIGC领域的专业社区分享了OpenAI开源的SWE-Lancer测试基准，用于评估大模型处理真实开发任务的能力。该测试集包含1488个真实的开发任务，总价值达100万美元。SWE-Lancer采用端到端测试方法和用户工具来模拟真实场景，揭示了大模型在复杂软件工程任务中的局限性。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30