中文网页检索挑战上线!GPT-4o准确率仅6.2%,这份新基准打脸所有大模型
港科大联合发布的新基准测试集BrowseComp-ZH显示,20多个主流大模型在中文网页检索任务中的准确率普遍低于10%,OpenAI的DeepResearch仅得42.9%。研究强调当前主流模型还需提升多轮搜索和信息整合能力。
港科大联合发布的新基准测试集BrowseComp-ZH显示,20多个主流大模型在中文网页检索任务中的准确率普遍低于10%,OpenAI的DeepResearch仅得42.9%。研究强调当前主流模型还需提升多轮搜索和信息整合能力。
基于大规模人类视频数据的视觉预训练在开发机器人操作算法方面展示了潜力。然而,人-机器人动作之间的数据域差异是实现有效迁移的关键障碍。香港科技大学团队提出HR-Align新范式,利用人类与机器人的动作对来弥合这一差距,从而提高从预训练模型中学习到的视觉系统在实际机器人任务中的性能。
Uni-Renderer团队在CVPR 2025上提出了一种双流扩散框架,实现了渲染和逆渲染的统一。通过改进的timestep调度策略、材质编辑和重光照功能等技术,该模型在性能方面达到了新SOTA水平,并且在合成数据集上的表现优于现有方法。
AoT 是 MetaGPT 开源社区的作者团队研发的新模型,由滕枫蔚、吴承霖等人组成。AoT 核心在于利用马尔可夫过程将复杂推理分解为一系列轻量级的‘原子问题’,避免历史信息依赖,提高计算效率。
27岁清华博士张林峰担任上海交通大学人工智能学院助理教授、博士生导师。他在大模型量化、高效推理等方向取得显著成果,发表多篇论文被广泛引用。他曾在多家学术会议与期刊中担任审稿人,并在不同机构中得到应用。