GPT-4其实根本听不懂声音?港中文、斯坦福等联合打造视觉听觉评估新基准

多模态大模型在听觉任务上表现不佳,甚至无法正确分辨明显不同的声音大小。研究团队提出了DeafTest和AV-Odyssey基准测试,揭示了现有模型在音频感知上的短板,并激发了对未来AI模型的改进方向。

GPT-4o再暴露「弱智」缺陷,大模型无一幸免!港中文等发布「视觉听觉」基准AV-Odyssey:26个任务直指死角问题

顶尖多模态大模型在AV-Odyssey基准测试中表现不佳,无法正确分辨声音大小。研究团队提出DeafTest和AV-Odyssey评估基准,揭示音频感知仍是大模型的主要瓶颈。