开放式任务基准归档 - 每时AI

MLGym：推进人工智能研究Agent的新框架和基准

2025年2月26日8时作者 NLP工程化

本文提出MLGym框架和基准，评估前沿LLM在AI研究任务上的表现，并强调构建和完善评估体系的重要性。