刚刚,OpenAI开源PaperBench,重塑顶级AI Agent评测 上午8时 2025/04/03 作者 AIGC开放社区 今天凌晨 1点, OpenAI开源了一个全新的 AI Agent评测基准—— PaperBench。 该基准主要考核智能体的搜索、整合、执行等能力。