扣子空间一手实测:字节的第一个Agent,比Manus如何?

字节的 Agent 产品来了。
4 月 18 日晚间,字节跳动扣子空间开启内测,定位通用 Agent。与其他类似产品如 manus 一样,扣子空间采用了邀请码制。
平台上,用户可以选择精通各项技能的「通用实习生」,也可以选择行业的「领域专家」,通过与 AI 的互动完成工作任务。
就在前一天,火山引擎刚刚面向企业市场推出 OS Agent 解决方案及 AI 云原生推理套件,要帮企业更快、更省地构建和部署 Agent 应用。
虽然采用了邀请码制,但扣子显然不是走饥饿营销的路线。用户激活获得的邀请码后,创建并完成一个新任务即可获得 5 个邀请码,邀请码激活后,还可获得更多邀请资格,多创建多获得多邀请。
上线的第一时间,极客公园就上手实测了扣子空间的 Agent 功能。可以看到,在执行的三个任务中,制定旅游攻略和一周穿搭的任务顺利完成,但另一个专家助手的任务,却出现了 Python 脚本调用失败、 API 权限异常等 Bug,一个晚上都没能执行成功。
字节迈出了走向 Agent 时代的第一步,但距离完美好用,显然也还有很长一段距离。


Founder Park 正在搭建开发者社群,邀请积极尝试、测试新模型、新技术的开发者、创业者们加入,请扫码详细填写你的产品/项目信息,通过审核后工作人员会拉你入群~
进群之后,你有机会得到:
  • 高浓度的主流模型(如 DeepSeek 等)开发交流;

  • 资源对接,与 API、云厂商、模型厂商直接交流反馈的机会;

  • 好用、有趣的产品/案例,Founder Park 会主动做宣传。


01
一手实测
三个任务失败一个
扣子有探索和规划两种模式,如果想让它一步到位输出,可以选择探索模式;如果想亲自把控每个步骤,可以选择规划模式。
我试了一下用扣子的探索模式制定一份日本旅行攻略,跟 manus 用例展示里的提示词类似,来看看扣子做出的旅行方案怎么样:


做出这份旅行攻略的时间在 10 分钟以上,可以看到扣子将推理过程的思维链与搜索深度结合,践行「边想边搜」,在「已获取到日本关西和熊本的小众景点、海边景点以及适合三十岁生日庆祝的特别地点信息」后,扣子保存了「景点信息」,开始「边想边做」,从景点中筛选出合适的景点并规划出行程安排,在完成行程安排后,开始生成包含地图、景点介绍、必备日语短语及旅行提示的 html 旅行手册:

经过了 15 分钟以上的运行后,扣子给出了上面视频所示的一份旅行攻略,如上面所示,里面既有 5 天的行程安排,也给出了预算参考和旅行提示,还根据我的需求配备了个性化的策划节目,看了一下基本按照这个方案已经可以直接出行。
扣子还支持添加 MCP 扩展,AI agent 得能力边界被进一步扩展,接下来应该会有更多插件接入。
我接入了语音合成的工具,让它给我把文字攻略转成语音版本,agent 很快就输出了语音版本:
https://lf-bot-studio-plugin-resource.coze.cn/obj/bot-studio-platform-plugin-tos/artist/image/4c1277951b564bb194bbcd11894a52ad.mp3
这个声音听着很像豆包 app 默认的女声声音,虽然把符号那些也连带着一起读了,但这个功能是方便好用的。
我继续试了一个简单任务,「查一下北京未来一周的天气,根据天气推荐一周穿搭,制作相关图片」,不过第一次输入没有注明是穿搭图片,所以输出的只是天气表格,在增加这个需求后,扣子输出了两张穿搭图片,可能因为我没有告知性别,它干脆输出了一男一女的穿搭。





这个输出的穿搭图片里,人很真,穿搭也看着可借鉴。后续还可以继续让扣子接着补充完一周的图片链接。
MCP 被认为是未来 AI 生态的「标准 USB 接口」,3 月底,国外,OpenAl、谷歌、微软和亚马逊陆续宣布支持或深度集成 MCP 协议,国内,阿里云、腾讯云也陆续支持 MCP 服务部署与调用。
此外,除了标准的通用 Agent,扣子空间里还内置了一些专家 Agent。目前在扣子空间的使用页面上,有「用户研究专家」和「华泰 A 股观察助手」两个专家 Agent,前者可以提供调研问卷交叉分析、访谈纪要整理以及用户分析报告撰写服务,同时可结合产品问题设计新的调研问卷和访谈提纲,后者则是由华泰与扣子团队共同孵化的专家 Agent,每日跟踪复盘自选股和大盘客观情况,基于专业数据和框架提供观察思考。
两位「专家」都已经明码标价——限时免费,这个标注方式或许为之后收费埋下伏笔?
「用户研究专家」核心包含四大能力,单任务平均耗时只需 4 分钟:问卷数据分析;访谈纪要总结;调研问卷生成;访谈提纲生成。
「华泰 A 股观察助手」的单任务平均耗时要长一些,23 分钟。该助手称可以每天为用户发送专属的股票早报,也可以与用户 1 对 1 探讨股票观察:
  1. 更高质量的数据源:华泰 A 股观察助手专家 Agent 在获取公开搜索信息的基础上,直接查询股票数据,综合完成分析,从而尽可能地减少因低质量数据源带来的幻觉。


  2. 更准确的数据计算:对于复杂的数据分析和技术指标分析,华泰 A 股观察助手专家 Agent 会使用 Python 来完成数据计算,尽可能地减少因心算带来的幻觉。


  3. 更复杂的研究任务:由于可以获取更大范围的连续数据并自主规划分析方法,华泰 A 股观察助手专家 Agent 能够像更专业地工作,先定量后定性,先定性后定量,定量定性相结合,让复杂深入的分析成为可能。


  4. 更灵活的交付方式:华泰 A 股观察助手专家 Agent 不仅可以对早报或回答文档进行追问,还能帮你生成 PPT、网页等各种形态的文件。

最近股市动荡颇多,来看看华泰与扣子团队共同孵化的专家 Agent 能力如何。
这个专家执行任务中间有节点,可以看到它在进行了分析、总结、生成报告之后,在等待我确认是要开始任务还是修改任务。
虽然页面上显示 10 分钟未开始任务,任务会自动确认并开始,但这个执行并不稳定。在之后再次出现类似节点时,我没有在 10 分钟之内反应,10 分钟后任务并没有自动开始,而是就停留在节点,导致该任务时长拖到了几十分钟还没有结束。
我是 18 日晚上 21:59 左右开始的这个任务,但是直到第二天早上,这个任务也没有完成。回头翻看任务执行过程,有一些数据未能获取,还有 Python 脚本 fetch_kline_data.py 调用失败,「可能是由于 API 调用权限或数据源问题」。
看来即使是 AI,股市专家也不好做。

02
Agent 赛道加速
2025 年之前就被称为会是 agent 之年。
manus 在 3 月的火热,加速了大厂在这一领域的推进。而 manus 能在今年「横空出世」,也是基于 Claude 3.7 Sonnet 等新一代模型在工具调用和编程能力上有重大突破,为 Agent 发展奠定基础。
字节在 agent 赛道了再次展现了速度与执行力。17 日,豆包·深度思考模型正式发布,同步升级文生图模型 3.0、视觉理解模型,并推出 OS Agent 解决方案及 AI 云原生推理套件,为企业构建与部署 Agent 应用提供了强力支持。18 日,通用 agent 平台扣子空间即开启内测,定位于提供「通用实习生」和「领域专家」Agent,展现了字节从技术突破到产品落地的迅速节奏。
在 17 日的发布会上,火山引擎总裁谭待强调要做好 agent,技术上需要做好三个准备,包括更强的、支持多模态的模型,更好的架构和工具能够支持大模型操作数字和物理世界,以及通过 AI 云原生降低模型推理的成本和延迟。
扣子空间的内测开启,或说明字节已经基本做好了这三项准备。
豆包 1.5·深度思考模型采用 200B 参数、20B 激活参数的 MoE 架构,支持视觉推理和「边想边搜」,能在数学推理(AIME 2024)、编程竞赛(Codeforces)和科学推理(GPQA)等任务中媲美 OpenAI o3-mini,达到全球第一梯队。其 20 毫秒的极低延迟和多模态能力,使其能处理复杂任务,如基于照片推测地理位置或解读企业项目流程图。
OS Agent 方案通过 AI 云原生组件(如 Sandbox)为企业提供了模块化的开发支持,显著降低了 Agent 应用的开发门槛。火山引擎还支持 MCP 协议,谭待认为,类似互联网早期 HTML 和 HTTP 的统一协议将加速 Agent 生态发展,降低开发者适配成本,推动行业标准化。
火山引擎正在通过垂直类 Agent(如 Data Agent)、通用 Agent 开发工具(如 OS Agent)及 AI 云原生布局,全面推进 Agent 生态建设。
谭待提到,Agent 是 AI 为各行各业带来变革的必经之路,需具备深度思考模型支持的反思和规划能力,才能完成专业度高、耗时长的复杂任务。
不过,当前市场对 Agent 的定义较为混乱,部分厂商宣称开发的「数千个 Agent」可能仅为初级(L1)水平,仅能处理简单任务。未来,Agent 或将像自动驾驶分级(L1 至 L4)一样明确标准,真正落地的 Agent 需达到 L2++及以上级别。接下来,Agent 的定义和应用场景将更加清晰。
可以看到,字节的 Agent 战略以技术突破、生态协同和成本优势为核心,展现了「大厂碾压」的实力。


图片

(文:Founder Park)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往