OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer
OpenAI发布SWE-Lancer基准测试评估AI大语言模型在自由职业软件工程任务中的表现,涵盖独立编码、UI/UX设计等任务。该项目揭示了现有模型在实际应用中的挑战与提升空间。
OpenAI发布SWE-Lancer基准测试评估AI大语言模型在自由职业软件工程任务中的表现,涵盖独立编码、UI/UX设计等任务。该项目揭示了现有模型在实际应用中的挑战与提升空间。
OpenAI联合一众大佬发布SWE-Lancer,一个评估前沿LLM在真实软件工程任务中的基准测试。它从Upwork精选了超过1400个真实的软件工程任务,总价值高达100万美元。SWE-Lancer包含个人贡献者和技术领导者的两种类型的任务,采用端到端测试模拟真实环境。研究结果显示模型表现仍有提升空间,OpenAI开源了数据集以促进更多研究。
专注AIGC领域的专业社区分享了OpenAI开源的SWE-Lancer测试基准,用于评估大模型处理真实开发任务的能力。该测试集包含1488个真实的开发任务,总价值达100万美元。SWE-Lancer采用端到端测试方法和用户工具来模拟真实场景,揭示了大模型在复杂软件工程任务中的局限性。