日期: 2025 年 5 月 6 日
大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%
BrowseComp-ZH团队发布新基准测试集,对20多个主流大模型进行中文网页能力测试,结果显示多数模型在中文互联网检索上准确率低于10%,仅有少数能突破20%。研究揭示了模型在中文信息环境中的“死角”,强调了推理能力和多轮策略的重要性,并指出搜索功能的不当使用可能误导模型。
被拒稿11年后翻盘获时间检验奖,DSN作者谢赛宁:拒稿≠学术死刑
谢赛宁十年前被NeurIPS拒收的论文《Deeply-Supervised Nets》(DSN)今年获AISTATS时间检验奖。该论文提出中间层监督思想,继承并发展了后续作品REPA和U-REPA,对计算机视觉领域产生了深远影响。
AI无师自通,搞定所有家务!π0.5突破泛化极限,UC伯克利系出品
新智元报道
具身智能公司Physical Intelligence推出π0.5 VLA模型,通过异构任务协同训练实现广泛泛化能力,机器人能在多种环境中完成复杂任务。
突发!曝阿里通义薄列峰离职,此前为应用视觉团队负责人
阿里通义实验室高层薄列峰离职,加入某互联网大厂担任多模态模型部副总经理。此前,通义实验室已有两位核心负责人鄢志杰和黄非离职。薄列峰曾带领团队开发了通义App上的爆款功能。
3B逆袭7B巨头!Video-XL-Pro登顶长视频理解SOTA,单卡万帧准确率超98%
上海交通大学、北京智源研究院和特伦托大学的研究团队推出了一种新的超长视频理解大模型Video-XL-Pro,该模型通过创新的重构式令牌压缩技术实现了近一万帧视频的单卡处理,并在多个基准测试中超越了此前发布的大型模型。