PaperWeekly，作者每时AI - 第32页共37页

GPT-4其实根本听不懂声音？港中文、斯坦福等联合打造视觉听觉评估新基准

上午8时 2024/12/17 作者 PaperWeekly

多模态大模型在听觉任务上表现不佳，甚至无法正确分辨明显不同的声音大小。研究团队提出了DeafTest和AV-Odyssey基准测试，揭示了现有模型在音频感知上的短板，并激发了对未来AI模型的改进方向。

下午2时 2024/12/16 作者 PaperWeekly

©作者 |
蒋锦昊，陈志朋，闵映乾
单位 |
中国人民大学
研究方向 |
大语言模型与推荐系统
近年

下午2时 2024/12/16 作者 PaperWeekly

引言
如何为多模态大模型（MLLMs）的安全测试构建正确且富有挑战性的测试数据一直是一个很大的挑战。

下午2时 2024/12/13 作者 PaperWeekly

©PaperWeekly 原创 · 作者 |
于星橦
单位 |
新加坡管理大学博士后
个人主页 |

下午2时 2024/12/13 作者 PaperWeekly

谷歌推出了新一代大模型Gemini 2.0，专为AI Agent设计。新模型已经在网页端开放使用，并推出名为深度研究的新功能帮助用户进行研究助理工作。Gemini 2.0在多模态、速度和通用助手愿景方面表现出色。

下午2时 2024/12/13 作者 PaperWeekly

今年Mamba作为一种新选择性状态空间模型，在CV领域引发关注。其在多项评估中表现出色，并且具有高感知学习能力和低部署效率的优势，能够显著降低计算成本。

上午8时 2024/12/13 作者 PaperWeekly

论文题目：
STIV: Scalable Text and Image Conditioned Vi

上午8时 2024/12/13 作者 PaperWeekly

上午8时 2024/12/13 作者 PaperWeekly

上午8时 2024/12/12 作者 PaperWeekly