跳至内容
在国内AI圈一夜爆火并引发不少争议后,号称世界首款通用AI Agent产品的Manus,在海外的关注度有所升温。
有不少获得邀请码进行体验的用户对Manus进行了技术拆解,实际体验褒贬不一,根据Manus AI官方Discord服务器数字显示,短短几天内,该平台的用户成员已增长到185752位,超1.5万人在线使用。
与一些做AI大模型的公司不同,Manus并非完全从零开始构建开发AI Agent,而是借助开源社区的技术力量对目前的业界先进大模型和AI工具进行了一次大融合,核心技术就在于如何高效缝合以及协调这些模型和工具。
在发布后仅一天之内,Manus就被开源社区进行了各种逆向工程“复刻”,其中最火的开源项目如“OpenManus”在GitHub上几天积累了27万星,Manus下一步如何规划自身的技术路线和壁垒,成为外部十分关注的话题。
根据最新的技术拆解和用户测评表明,抛开炒作成分,Manus团队在“AI拼装”方面有一些可圈可点的技术探索值得肯定。
不少用过Manus的网友表示:我们可能触及了将现有模型通过正确的工具和集成来实现强大功能的表面,未来深度整合带来的体验或将很有空间。
最近几天关于Manus的测试案例相继出炉,产品得到了多方反馈。
Hugging Face公司的产品负责人Victor M在体验后发帖表示,Manus是他用过的令人印象深刻的一款AI工具,它的代理能力重新定义了一些可能性,用户体验(UX)也基本符合承诺,他在Manus上使用提示词编写了一个控制飞机的游戏。
有网友也用类似的提示词,很便捷就制作出了一款无尽跑酷游戏,整体效果都还不错。
Menlo Ventures的风险投资人Deedy发帖表示,这是一个值得被宣传的新型AI产品,当要求它“对特斯拉股票进行专业分析”,它在大约1小时内完成了大约需要2周的专业级工作,而且是可视化可交互的分析界面。

此外,Deedy认为,虽然Manus只是一个“包装器”,但Cursor、Glean、Perplexity、Moveworks等项目都类似于包装器,即使没有自己的大模型,包装器的ARR(年度经常性收入)也有望超过5000万美元,成为估值独角兽,在顶尖模型基础上构建优秀的产品和业务能力也是一条商业路径。
尽管Manus在发布时宣称在GAIA(评估通用人工智能助手解决现实问题能力的基准)上,Manus在所有难度级别上都取得了领先的(SOTA)性能,整体表现优于OpenAI提供的DeepRasearch功能。
但在实际体验中可能并不完全碾压DeepRasearch。生物医学科学家Derya Unutmaz在体验后表示Manus的效果有点令人沮丧,在专业科研知识领域的表现可能还不太好。
Derya Unutmaz认为,乍一看Manus的质量似乎与OpenAI的Deep Research相当接近,不过Manus AI缺少DeepResearch风格的引用和参考文献,而这些对于科研工作很重要。
对待首批用户体验中出现的问题,Manus方面回应称:“作为一个小团队,我们的重点是不断改进Manus,并制造出真正帮助用户解决问题的AI代理,当前封闭测试的主要目标是对系统的各个部分进行压力测试并找出问题,非常感谢大家分享的宝贵见解。”
在网友的各种分析中,Manus调用整合了什么技术让外界最为好奇。
对此,Manus联合创始人兼首席科学家Yichao Peak Ji(季逸超)并未回避,并且通过多条互动帖子揭开了背后的技术面纱。
在底座模型方面,Manus使用Claude和阿里云通义实验室研发的Qwen-finetunes微调工具等,其团队开始构建Manus时,只有Claude 3.5 Sonnet v1版本,所以还借用了一些辅助模型,现在Claude 3.7看起来很有前途,Manus正在内部测试进行升级更新。
其次,很多网友表示可以通过“沙盒”(一种安全机制)运行时的代码过程剖析Manus整合的工具链条,对此,季逸超回应称这并不复杂,Manus的设计初衷就是每个用户都可以直接访问沙盒。
具体而言,Manus每个会话都有自己的沙盒,与其他会话完全隔离,用户可以通过Manus的界面直接进入沙盒,沙盒中的代码仅用于接收来自代理的命令,因此仅被轻微混淆。
此外,工具设计并不是什么秘密。Manus代理的行动空间设计与常见的学术方法并无太大区别,而且由于RAG机制,通过越狱获得的工具描述会因不同的任务而异。
多代理实现是Manus的主要功能之一。使用Manus发送消息时,用户只与执行代理进行通信,而执行代理本身并不知道知识、规划器或其他代理的详细信息,这有助于控制上下文长度,也是为什么通过越狱获得的提示大多是幻觉的原因。
Manus确实使用了browser_use的开源代码。季逸超表示:“事实上,我们使用了许多不同的开源技术,这就是为什么我在发布视频中特别提到,如果没有开源社区,Manus就不会存在,我们将推出一系列致谢和合作。”
最后一个技术疑点是是否使用了“MCP”?MCP最近在硅谷疯传,这是由Claude模型的开发商Anthropic在去年11月底提出的一种开源模型上下文开放协议和标准化接口,专为各种AI应用扩展而设计。
业内人士分析MCP协议相当于互联网时代的http协议,打通了大模型、Agent、rag、tools等各种端之间的数据通信,志在推动各类智能体接口标准化,代表着Agent互联网时代的开启。
季逸超在回应的帖子中透露,Manus并没有使用MCP,而是利用了一个中国团队的开源研究成果:一种可执行代码操作引出更好的LLM代理,该研究建议使用可执行代码将LLM代理的动作元素合并到统一的动作空间 (CodeAct)。
CodeAct这项工作提供了3个关键见解:1、编码不是最终目标,而是解决一般问题的通用方法;2、由于LLM擅长编码,因此让代理执行与其训练分布最密切相关的任务是有意义的;3、这种方法显著减少了上下文长度并使得复杂操作的组合成为可能。
至于为什么没用MCP,季逸超表示Manus项目在MCP推出之前就开始了。
除了基座模型、接口协议等,Manus打包的29个工具也被梳理了出来。
按类别来分,其中包括12个浏览器操作工具(browser系列,支持AI代理与浏览器、网站交互);5个Shell操作工具(用户与操作系统内核之间的接口,允许用户通过命令行界面与系统进行交互);5个文件操作(file系列,支持打开、读取、写入、创建文件等等);3个部署工具;2个message消息交互工具;1个信息查询工具info_search_web和1个idle工具。
综合来看,Manus团队在AI模型和工具产品整合方面还是下了不少功夫和心思的,季逸超在帖子里表示,在不久的将来,Manus也将开源不少好东西,至于是什么可以期待一下。
随着各类AI工具的渗透,基于各家模型做“包装器”型产品开发有可观的商业空间。
例如在开发者群体中受到欢迎的Cursor代码编辑器,Cursor底层基于一些成熟的编辑器技术栈来构建,比如类似于VS Code等编辑器使用的一些基础组件和架构。
Cursor AI功能会借助一些开源的AI模型或商业的AI服务,如OpenAI、Anthropic的最新模型,Google的Palm,以及DeepSeek和阿里Qwen系列等。
但“包装器”产品这并不意味着简单的技术堆叠,Cursor在这些基础上进行大量的扩展和优化,最终在使用体验上为开发者提供全新的代码编辑体验,进而提高个人和团队协作开发的效率,这就激发了市场价值,推动公司估值高达100亿美元。
道理类似,即便是整合,Manus能否先人一步把技术融合做到极致,把产品推到用户面前,把交互体验做到最领先,基于整合包装能否做出更好的优化创新功能,这些因素都可能会转化成为其护城河壁垒的一部分,完成商业先机的抢占。
(文:头部科技)