GPT-4其实根本听不懂声音?港中文、斯坦福等联合打造视觉听觉评估新基准
多模态大模型在听觉任务上表现不佳,甚至无法正确分辨明显不同的声音大小。研究团队提出了DeafTest和AV-Odyssey基准测试,揭示了现有模型在音频感知上的短板,并激发了对未来AI模型的改进方向。
多模态大模型在听觉任务上表现不佳,甚至无法正确分辨明显不同的声音大小。研究团队提出了DeafTest和AV-Odyssey基准测试,揭示了现有模型在音频感知上的短板,并激发了对未来AI模型的改进方向。
谷歌推出了新一代大模型Gemini 2.0,专为AI Agent设计。新模型已经在网页端开放使用,并推出名为深度研究的新功能帮助用户进行研究助理工作。Gemini 2.0在多模态、速度和通用助手愿景方面表现出色。
今年Mamba作为一种新选择性状态空间模型,在CV领域引发关注。其在多项评估中表现出色,并且具有高感知学习能力和低部署效率的优势,能够显著降低计算成本。