OpenAI 刚刚开源了 PaperBench,用于评估 Agent 复现顶尖论文能力! 2025年4月3日11时 作者 特工宇宙 PaperBench 是由 OpenAI 开发的一个基准测试,用于评估 AI Agent 复现尖端 AI 研究的能力,共包含 8,316 个任务,并通过评分标准进行自动化评估。