北大发布学术搜索评测ScholarSearch:难倒一众DeepResearch的“开卷考试”

北京大学DS-Lab发布ScholarSearch数据集,评估LLMs在学术研究中的信息检索能力。结果显示现有模型普遍表现不佳,仅凭推理无法解决复杂问题,需结合搜索功能以提高准确率。