OpenAI推出真实世界百万报酬AI编程能力测试基准:实测Claude 3.5 最强!
OpenAI联合一众大佬发布SWE-Lancer,一个评估前沿LLM在真实软件工程任务中的基准测试。它从Upwork精选了超过1400个真实的软件工程任务,总价值高达100万美元。SWE-Lancer包含个人贡献者和技术领导者的两种类型的任务,采用端到端测试模拟真实环境。研究结果显示模型表现仍有提升空间,OpenAI开源了数据集以促进更多研究。
OpenAI联合一众大佬发布SWE-Lancer,一个评估前沿LLM在真实软件工程任务中的基准测试。它从Upwork精选了超过1400个真实的软件工程任务,总价值高达100万美元。SWE-Lancer包含个人贡献者和技术领导者的两种类型的任务,采用端到端测试模拟真实环境。研究结果显示模型表现仍有提升空间,OpenAI开源了数据集以促进更多研究。