刚刚,OpenAI开源PaperBench,重塑顶级AI Agent评测 2025年4月3日8时 作者 AIGC开放社区 今天凌晨 1点, OpenAI开源了一个全新的 AI Agent评测基准—— PaperBench。 该基准主要考核智能体的搜索、整合、执行等能力。