大模型能力归档

北大伯克利联手“拷问”大模型：最强Agent也才40分！新基准专治“不听话”的AI分析师

2025年6月10日16时作者量子位

北大邓小铁课题组发布的新基准IDA-Bench模拟真实数据分析场景，测试了大模型在多轮交互中的表现。结果显示即使是顶尖模型，其成功率也仅约40%，揭示了现有模型在理解和遵循指令方面存在的问题。

2025年4月21日16时作者 Z Potentials

字节跳动旗下AI Agent平台‘扣子’开启内测，提供智能任务分解、高效协作等功能。通过60余款插件支持和内置MCP扩展，助力用户完成复杂任务。

2025年3月25日23时作者甲子光年

2025年4月28日上海马桥人工智能创新试验区大会聚焦中国AI产业革命。DeepSeek和Manus等公司改写全球产业规则，汇聚科技领袖探讨未来科技趋势。

2025年2月7日16时作者 AI前线

”的人工智能模型套件。
谷歌 Gemini 2.0 向所有人开放
去年 12 月，谷歌发布 Gemi