GPT-4o连验证码都解不了??SOTA模型成功率仅40%
MetaAgentX团队推出首个专注于‘多模态交互智能体×CAPTCHA问题’的开放式研究平台——Open CaptchaWorld,实测结果显示多模态模型在解验证码方面表现不佳。该平台旨在评估和改进大模型的解题能力,并揭示当前多模态Agent在高交互任务中的短板。
MetaAgentX团队推出首个专注于‘多模态交互智能体×CAPTCHA问题’的开放式研究平台——Open CaptchaWorld,实测结果显示多模态模型在解验证码方面表现不佳。该平台旨在评估和改进大模型的解题能力,并揭示当前多模态Agent在高交互任务中的短板。
研究人员开发出一种新方法提高AI学习多模态信息的能力,使机器能够自动检索视频和音频内容,并有望在新闻、电影制作等领域发挥作用。该方法通过改进训练方式和技术架构提高了模型对音频与视觉数据的对应关系理解能力。
香港大学和密歇根大学的研究人员发布首个专门面向多模态大模型物理推理能力的大规模基准测试PhyX,评估结果表明表现最好的GPT-o4 mini准确率仅为45.8%,远不及人类水平。
般会把最好的模型留到 I/O 大会上发布。但在 Gemini 时代,谷歌很可能会在三月的某个周二突然
字节推出视觉-语言多模态大模型Seed1.5-VL,具备更强的通用多模态理解和推理能力,在视频理解、视觉推理等方面表现突出。
阿里的MNN移动端多模态大模型APP更新支持Qwen-2.5-omni-3b和7b,可以实现文本到文本、图像到文本等多种生成任务,提供速度优化的开发参考。