OpenAI 刚刚开源了 PaperBench,用于评估 Agent 复现顶尖论文能力! 上午11时 2025/04/03 作者 特工宇宙 PaperBench 是由 OpenAI 开发的一个基准测试,用于评估 AI Agent 复现尖端 AI 研究的能力,共包含 8,316 个任务,并通过评分标准进行自动化评估。