复现率21% 归档

OpenAI发布AI研究新基准PaperBench，已能复制21%顶会论文！斯坦福研究发现LLM已比人类专家更具科研新颖性

2025年4月3日11时作者 AGI Hunt

OpenAI发布的PaperBench测评基准测试了AI复现顶级学术论文的能力，Claude 3.5 Sonnet在20篇ICML论文测试中的平均得分为21%，超过了一半的顶会论文。该基准不仅严苛要求，还开源代码鼓励研究者参与。此外，斯坦福大学的研究表明LLM能提出有创意的新想法，但其可行性有待提升。OpenAI研究员Jason Wei认为AI科学创新将有两种风格：专注特定问题或训练通用型AI系统。未来AI在科研领域的潜力巨大，包括辅助和引领重大突破。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31