独立编码归档

OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer

下午11时 2025/04/07 作者 AI前线

OpenAI发布SWE-Lancer基准测试评估AI大语言模型在自由职业软件工程任务中的表现，涵盖独立编码、UI/UX设计等任务。该项目揭示了现有模型在实际应用中的挑战与提升空间。