GPT-4o归档 - 第7页共9页

顶级AI智能体不会社交，创业远不如人类！CMU等：最多完成24%任务

下午12时 2025/01/26 作者新智元

新智元报道编辑：peter东乔杨近日研究发现，即使是最先进的大模型智能体也无法完全应对现实世界中的复杂任务。《Agent Company》项目展示了智能体在虚拟软件公司的运营中所遇到的问题，包括常识缺乏、社交技巧不足以及网页浏览困难等挑战。

下午10时 2025/01/23 作者 PaperAgent

检索增强生成(RAG)在开放域问答任务中表现出色，但传统搜索引擎可能只进行横向网页搜索，限制了大型语言模型(LLM)对复杂信息的处理能力。为了解决这一问题，提出WebWalkerQA作为评估LLM执行网页遍历能力的新基准，并引入WebWalker多代理框架模拟人类网页导航过程。

下午10时 2025/01/20 作者 AI大模型实验室

字节跳动推出AI IDE工具Trae，支持原生中文，集成Claude 3.5等大模型，目前免费开放MacOS版使用。

下午11时 2025/01/15 作者量子位

最新研究提出LONGPROC基准测试评估长上下文语言模型处理复杂信息并生成回复的能力。尽管主流模型声称能处理32K tokens，但在实际应用中的表现并不尽如人意，尤其是对于复杂的多任务生成任务。

下午12时 2025/01/15 作者新智元

ChatGPT新增任务功能（Tasks），用户可设置定时执行的任务，覆盖学习、娱乐、工作等多个场景。目前仅支持部分平台使用，且免费用户无法访问。

上午8时 2025/01/14 作者 PaperWeekly

下午12时 2025/01/13 作者新智元

新智元报道
编辑：英智桃子
【新智元导读】
AI已经能够自主科研了！AMD霍普金斯祭出「智能化实验

下午10时 2025/01/02 作者 AI先锋官

就在昨天，英伟达高级AI研究科学家Jim Fan在X上发布了年终推文。
他从机器人硬件、具身人工智能