Grok还没热,OpenAI就来新基准:百万美元测试,Claude竟拿下40万!
OpenAI发布SWE-Lancer测试基准,评估AI代码能力。该基准基于真实项目任务,涵盖软件工程全栈开发和管理任务,价值100万美元。Claude 3.5 Sonnet表现最佳,但远不及人类开发者水平。
OpenAI发布SWE-Lancer测试基准,评估AI代码能力。该基准基于真实项目任务,涵盖软件工程全栈开发和管理任务,价值100万美元。Claude 3.5 Sonnet表现最佳,但远不及人类开发者水平。