多模态模型归档 - 第2页共7页

GPT-4o连验证码都解不了？？SOTA模型成功率仅40%

2025年6月5日8时作者量子位

MetaAgentX团队推出首个专注于‘多模态交互智能体×CAPTCHA问题’的开放式研究平台——Open CaptchaWorld，实测结果显示多模态模型在解验证码方面表现不佳。该平台旨在评估和改进大模型的解题能力，并揭示当前多模态Agent在高交互任务中的短板。

2025年5月27日23时作者量子位

香港大学和密歇根大学的研究人员发布首个专门面向多模态大模型物理推理能力的大规模基准测试PhyX，评估结果表明表现最好的GPT-o4 mini准确率仅为45.8%，远不及人类水平。

2025年5月23日16时作者量子位

标准了！
来自香港科技大学、腾讯西雅图AI Lab、爱丁堡大学、Miniml.AI、英伟达的研究者联

2025年5月21日23时作者 AI前线

般会把最好的模型留到 I/O 大会上发布。但在 Gemini 时代，谷歌很可能会在三月的某个周二突然

2025年5月21日16时作者 PaperWeekly

M）涌现，成为 AI 社区最重要的研究领域之一。我们见证着 MLLM 从“单科专家”向“全能通才”的

2025年5月20日16时作者 PaperWeekly

问题。现有研究大多聚焦于单模态风险（如有害文本或图像），却往往忽视跨模态组合所潜藏的安全隐患——即便

2025年5月14日23时作者机器之心

字节推出视觉-语言多模态大模型Seed1.5-VL，具备更强的通用多模态理解和推理能力，在视频理解、视觉推理等方面表现突出。

2025年5月14日8时作者 NLP工程化

阿里的MNN移动端多模态大模型APP更新支持Qwen-2.5-omni-3b和7b，可以实现文本到文本、图像到文本等多种生成任务，提供速度优化的开发参考。

2025年5月12日8时作者 NLP工程化

llama.cpp 推出视觉模型支持，多模态模型开发者可利用最新更新。