GPT-4o连验证码都解不了??SOTA模型成功率仅40%
MetaAgentX团队推出首个专注于‘多模态交互智能体×CAPTCHA问题’的开放式研究平台——Open CaptchaWorld,实测结果显示多模态模型在解验证码方面表现不佳。该平台旨在评估和改进大模型的解题能力,并揭示当前多模态Agent在高交互任务中的短板。
MetaAgentX团队推出首个专注于‘多模态交互智能体×CAPTCHA问题’的开放式研究平台——Open CaptchaWorld,实测结果显示多模态模型在解验证码方面表现不佳。该平台旨在评估和改进大模型的解题能力,并揭示当前多模态Agent在高交互任务中的短板。
艾伦人工智能研究所推出的新模型Tülu 3 405B在多项基准测试中超越Deepseek v3和GPT-4,采用全新后训练框架,并提供完全开源的数据、评估、训练代码及开发配方。