评估大模型归档

中文网页检索挑战上线！GPT-4o准确率仅6.2%，这份新基准打脸所有大模型

2025年5月8日16时作者 PaperWeekly

港科大联合发布的新基准测试集BrowseComp-ZH显示，20多个主流大模型在中文网页检索任务中的准确率普遍低于10%，OpenAI的DeepResearch仅得42.9%。研究强调当前主流模型还需提升多轮搜索和信息整合能力。