中文网页检索挑战上线!GPT-4o准确率仅6.2%,这份新基准打脸所有大模型
港科大联合发布的新基准测试集BrowseComp-ZH显示,20多个主流大模型在中文网页检索任务中的准确率普遍低于10%,OpenAI的DeepResearch仅得42.9%。研究强调当前主流模型还需提升多轮搜索和信息整合能力。
港科大联合发布的新基准测试集BrowseComp-ZH显示,20多个主流大模型在中文网页检索任务中的准确率普遍低于10%,OpenAI的DeepResearch仅得42.9%。研究强调当前主流模型还需提升多轮搜索和信息整合能力。