现在评测集太简单了,OpenAI 推出深度搜索评测新基准 BrowseComp
OpenAI 发布并开源 BrowseComp 基准测试,旨在评估智能体在互联网上精准定位极难查找信息的能力,以应对现有评估方法的不足。
OpenAI 发布并开源 BrowseComp 基准测试,旨在评估智能体在互联网上精准定位极难查找信息的能力,以应对现有评估方法的不足。
OpenAI 推出新功能,ChatGPT 可以参考用户的所有聊天记录提供个性化的回复,并且更智能、个性化。新的记忆功能首批向部分用户推出,但需要在未来几周内逐渐部署。
ChatGPT新增记忆功能可参考过往聊天记录提供个性化回复,目前已向所有Plus和Pro用户开放。新功能引发热议及实测反馈,既有积极评价也有局限性讨论。OpenAI计划下周发布包括GPT-4.1在内的多款全新模型。
OpenAI发布了全新基准测试BrowseComp,专为评估AI代理在互联网上寻找难以获取信息的能力而设计。该测试包含1266个难题,其中大多数人类也需要花费两小时才能解决。
文章介绍了五个项目或工具:BrowseComp、ReCamMaster、ORION、Seed-Thinking-v1.5 和 Agent-Wiz。它们分别专注于AI代理的浏览能力、视频生成、自动驾驶以及智能体的工作流安全评估等方面,涵盖了机器学习和人工智能领域的多个方向。
ChatGPT新增功能可参考过往对话内容生成个性化回复,并支持记忆和引用之前的信息。OpenAI表示这标志着LLM交互范式的转变,用户可以询问AI关于自己之前的提问。不过也有负面反馈指出记忆的稳定性问题以及可能存在幻觉现象。