顶级AI智能体不会社交,创业远不如人类!CMU等:最多完成24%任务

新智元报道编辑:peter东 乔杨近日研究发现,即使是最先进的大模型智能体也无法完全应对现实世界中的复杂任务。《Agent Company》项目展示了智能体在虚拟软件公司的运营中所遇到的问题,包括常识缺乏、社交技巧不足以及网页浏览困难等挑战。

阿里WebWalker:一个提升RAG多维信息检索能力的Multi-Agent框架

检索增强生成(RAG)在开放域问答任务中表现出色,但传统搜索引擎可能只进行横向网页搜索,限制了大型语言模型(LLM)对复杂信息的处理能力。为了解决这一问题,提出WebWalkerQA作为评估LLM执行网页遍历能力的新基准,并引入WebWalker多代理框架模拟人类网页导航过程。

打脸!GPT-4o输出长度8k都勉强,陈丹琦团队新基准测试:所有模型输出都低于标称长度

最新研究提出LONGPROC基准测试评估长上下文语言模型处理复杂信息并生成回复的能力。尽管主流模型声称能处理32K tokens,但在实际应用中的表现并不尽如人意,尤其是对于复杂的多任务生成任务。

Claude 加持下的AI 钓鱼有多猛?

最新研究显示AI代理在钓鱼邮件攻击中的点击率达到50%以上。五步精准钓鱼术:信息收集、信息爬取、个性化邮件制作、自动化发送及追踪分析。AI生成的钓鱼邮件效率高且成本低,成功率甚至超过人类专家。AI画像技巧出色,真阳性检出率高达97.25%,但需注意提示词注入和越狱问题。未来研究将扩大规模并探索用户行为模式以增强防御策略。