谷歌开源全栈研究助手快速启动项目Gemini LangGraph, AI驱动的深度网络研究工具Firesearch

文章介绍了5个AI相关的项目和技术,包括Gemini LangGraph、Firesearch、Agent Flow、DecipherIt和MCP Feedback Enhanced。这些项目涵盖全栈开发、网络研究工具、智能体平台、研究助手以及交互式反馈服务器等多个方面。

GPT-4o连验证码都解不了??SOTA模型成功率仅40%

MetaAgentX团队推出首个专注于‘多模态交互智能体×CAPTCHA问题’的开放式研究平台——Open CaptchaWorld,实测结果显示多模态模型在解验证码方面表现不佳。该平台旨在评估和改进大模型的解题能力,并揭示当前多模态Agent在高交互任务中的短板。

机器人企业「加速进化」完成 A 轮融资,累计完成数百台交付

北京加速进化科技有限公司宣布完成A轮融资,深创投集团领投,将用于产品迭代升级和规模化量产交付。该公司专注于双足/人形机器人研发,曾参加RoboCup赛事并积累了实战经验。

单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2

智源研究院联合上海交通大学发布新一代超长视频理解模型Video-XL-2,单张显卡即可高效处理万帧视频,编码2048帧仅需12秒。该模型在多个维度表现优异,并向社区开放权重,有望在影视分析、异常检测等场景中广泛应用。