测试结果归档

GPT-4o连验证码都解不了？？SOTA模型成功率仅40%

上午8时 2025/06/05 作者量子位

MetaAgentX团队推出首个专注于‘多模态交互智能体×CAPTCHA问题’的开放式研究平台——Open CaptchaWorld，实测结果显示多模态模型在解验证码方面表现不佳。该平台旨在评估和改进大模型的解题能力，并揭示当前多模态Agent在高交互任务中的短板。

下午11时 2025/02/05 作者新智元

艾伦人工智能研究所推出的新模型Tülu 3 405B在多项基准测试中超越Deepseek v3和GPT-4，采用全新后训练框架，并提供完全开源的数据、评估、训练代码及开发配方。