OpenAI放大招!BrowseComp来了,AI上网能力大比拼!
OpenAI发布了全新基准测试BrowseComp,专为评估AI代理在互联网上寻找难以获取信息的能力而设计。该测试包含1266个难题,其中大多数人类也需要花费两小时才能解决。
OpenAI发布了全新基准测试BrowseComp,专为评估AI代理在互联网上寻找难以获取信息的能力而设计。该测试包含1266个难题,其中大多数人类也需要花费两小时才能解决。
今天凌晨2点,OpenAI开源了专门用于智能体浏览器功能的测试基准——BrowseComp。这个测试基准非常有难度,OpenAI自己的模型准确率只有0.6%和0.9%,但最新发布的Agent模型Deep Research准确率达到51.5%,展示了其在自主搜索、信息整合和准确性校准方面的优秀能力。
谷歌 Gemini 模型更新支持深度研究功能,仅 Advanced 会员可体验。Gemini 2.5 Pro 提供,相比 OpenAI 的 Deep Research 效果更好。Gemini Advanced 用户每月可使用 20 次深度研究。
谷歌发布Gemini Advanced订阅服务升级版Deep Research功能,相比OpenAI同款功能评分高出两倍多。该功能可快速生成详细的研究报告,并支持多种语言和设备使用。
谷歌Deep Research搭载Gemini 2.5 Pro模型升级,显著提升分析、推理和报告生成能力。仅需19.99美元即可体验新功能。4分钟内完成46页学术论文和10分钟播客的转换。性能超OpenAI DR40%,价格仅为其十分之一。
AutoAgent 是一个全自动且高度自我进化的框架,用户仅需自然语言即可创建并部署LLM Agent。它在GAIA基准测试中排名#1,并内置自管理向量数据库。支持多种LLM和灵活交互模式。
在AI基础建设下,深度研究成为主流应用。维基百科流量未受影响,但搜索引擎仍需透明来源验证以保障质量。尽管DeepResearch服务提供明确出处,但仍难以应对碎片化和小众知识需求。