现在评测集太简单了,OpenAI 推出深度搜索评测新基准 BrowseComp 下午11时 2025/04/11 作者 AI工程化 OpenAI 发布并开源 BrowseComp 基准测试,旨在评估智能体在互联网上精准定位极难查找信息的能力,以应对现有评估方法的不足。