Manus、OpenAI Deep Research 20个用例大横评,通用Agent抛弃奥特曼了。。。吗?

上线12小时,

Manus从第一个通用Agent变成了第一款自媒体比技术从业者先发现和评测的AI产品,评论好坏掺半。

最明显的两个观点是效果虚假,没有技术报告,很多好的Agent已经能做到这一点如何那么厉害的话,为什么英文媒体们没有报道

后者应该很难辨正,但是前者我觉得还是可以燃烧几个 GPT Pro账号,来真金白银试试看 Manus 的效果如何。

所以就有了这篇文章,我挑选了5个中文问题和5个英文问题,其中中文问题都是大半都是 @赛博禅心 提供,感谢感谢~。而英文拿的是 Manus 提供的 Use Cases。

按照同样的输入在OpenAI o1 Deep Research运行, 并且因为英文是 Use Case,不知道实际成功率。那这5个问题我会重复运行3次。主要是还没蹲到验证码,山不向我走來,我就向山走去。

Here we go!

问题一、整理一份逐月编年史,纪录从2022年到现在,AI 行业每个月都发生了哪些事情。整理完之后,再从现在的视角回顾下这段历史

很可惜,Manus开局不利,卡在了某乎的扫码界面。从它执行过程中看它会把每个季度做成代办,然后将搜集到的信息写到 event.md,每完成一次代码就会更新一次 todo.md。

这种用 markdown 作为进度记录和更新的方式,之前在 cursor 里使用过。一般来说这种多Agent系统会有一个Plan Agent专门负责进程管理。Manus这一点还是有按照自己的理解来搭建。

而 o1 Deep Research 解决这搜索类问题还是相当简单的话,除了把当前时间当作是2024外,每个月的关键信息都没有产生幻觉。

PS:因为这个两个 Agent 的执行过程都有可能较长,我会尽可能把能看清的截图放进来。而这十个问题的 Manus 链接和Deep Research 的完整截图我就放到链接,一样是私信我发送Manus就可以获取。

问题二、你是一个严肃媒体,写一篇爆款的公众号文章,要有百万阅读的潜质,讲这个产品,图文并茂的 https://manus.im/

除了开头和结尾,坦白来说,Manus 这篇应该不太能算合格的公众号文章,没有成功配图,中间的文字更像是一行行短的宣传语,就像这句 “无论什么主题,Manus都能帮你深入多渠道搜集信息,给你提供既全面又有见解的研究报告。市场分析、竞品研究、学术文献综述,它都能胜任。”。

来看看 o1 Deep Research 的表现吧。同样,也不太算一篇完整度很高的公众号文章,但是单个段落表达的语义更加完整,而且开头和中间都有配图吗,完成度是比 Manus 要高上不少的。我挺喜欢这句:“Pepper机器人是一种实体AI助手形象,体现了AI助手在现实场景中的应用;而Manus以纯软件形式,实现了类似助理职责的全面覆盖。”

问题三、帮我写一个DOOM的网页版游戏,高保真,我可以用鼠标和键盘来玩

这就是 Manus 做出来的 DOOM 网页版,真的做到了把游戏部署到了直接访问的域名,虽然 UI 比较简单但是地图、操控台、关卡信息等都齐全了,视角移动和上下左右也是好用的。

强烈建议都看看完整的生成过程。这道题应该算是 Manus 的舒适区了吧,它背后有 Qwen 和 Claude 的支持,含金量懂得都懂。

o1 Deep Research 在生成游戏方面就有点拉了,我前后尝试了3次,第一轮生成的代码都是有问题的,且后续对话无法修复。相信不少人也想看看 Claude 3.7 能不能完成这任务,我又花了点钞能力。

可惜,在 3.7 上我没有跑通。。。

问题四、帮我做一下介绍小米 Su7 十页的 PPT

这个问题应该是比较出名的 Case了,Manus做出来的是 html 版本的 PPT,有有限的篇幅里面准确表达了su7的热点,整体配色跟小米很配,有3处字体排版错误。

o1 Deep Research 就有点拉垮了,用配图和排版文字来做PPT,虽然图找的挺准的,还找了特斯拉来对比,目前来看 o1 Deep Research 的长处还是集中在信息搜索、搜图和文本编写。

问题五、我是大学一年级的理科生,刚学习了微积分和线性代数,具备一点点python基础。请帮我写一本《大模型:从入门到精通》的书,要确保内容详实,有公式、有代码、有图示,章节清晰,内容完整,让我这种小白人士能够轻松学习。

这种问题我愿称之为许愿机,是那种一看就觉得AI目前应该还不能做到这个任务的怪异感。

很可惜因为上下文,Manus 刚刚写到第五章,比起 o1 Deep Research ,Manus给出的代码案例相当详细。而且很有意思的是,Manus真的是现学的系统大模型基础知识。

o1 Deep Research 一共写了7章节,可以说是有模有样的,有公式、图、代码和案例,甚至还可以加上测试题。

中文Case告一段落,单论这几个 Case 来说,Manus 跟 o1 Deep Research应该是打平,但PPT生成、Doom Web游戏里 Manus 完成率明显更高,也可以变相说明 Manus 支持的工具种类比 Deep Research 应该是多上不少。

我们马上进英文 Case,英文 Case 里面有音频,自制 logo 、还能直接去打比赛,这也是我最想用 o1 Deep Research 挑战的。

问题六:我需要一份4月15日至23日的7天日本行程,从西雅图出发,预算为2500至5000美元,我和我的未婚妻一起。我们喜欢历史遗迹、隐藏的宝藏和日本文化(剑道、茶道、禅修)。我们想看奈良的鹿,并徒步探索城市。我计划在这趟旅行中求婚,需要推荐一个特别的地点。请提供详细的行程和一本简单的HTML旅行手册,包含地图、景点描述、基本日语短语和旅行小贴士,以便我们在整个旅程中参考。

左边是Manus、右边是Deep Research

这个例子就没什么悬念了,同样的输入下,Manus给出的流程相对简单,o1 Deep Research是细化到预算、出行方式、酒店都推荐上了。

问题七:帮我设计一个音效,混合鸟鸣和蒸汽的声音,持续时间大约3秒。

Manus的思路很清晰,上来就先安装常见的音频处理环境(ffmpeg 和 sox),中间安装失败了改用 Python,接着去网上下载了鸟鸣声样本和蒸汽声音,并完成裁剪和合成。

可惜的是鸟鸣声不是很明显,我听了很多遍,音频的中间部分确实是有鸟叫。

从 o1 Deep Research 的思考过程上看,它是计划用python实现的。但是在保存成文件这一步反复失败,我想通过Claude来修复输出的wav,可惜也同样失败了

问题八、这是我们的公司网站 https://techcrunch.com。基于其设计风格和视觉语言,请创建一套我们可以在PowerPoint演示文稿中使用的图标。这些图标应丰富、吸引人,并保持与我们网站一致的设计语言。

很明显 manus 抓到了那一抹绿,对于图标设计它自己有自己的理解,还专门写了一套准则

  • 亮绿色(#00D301 或类似):用于主背景和品牌标识
  • 黑色:用于导航栏、文本和内容区域
  • 白色:用于深色背景上的文本和标志元素
  • 强调色:用于类别标签和按钮的各种颜色

分析网页的主要风格对 o1 Deep Research 的挑战性不高,生成出来的图标明显的DALLE味道,要挑的话就是出来的图标没有进行切割,也没有不同尺寸的大小。

问题九、参加 Kaggle 房价预测竞赛。创建用于数据预处理和模型构建的 Python 脚本,然后生成具有竞争性得分的提交文件。

又是一个许愿级别的问题啊。

我原以为是从网页访问、到模型训练、到提交结果都是由 Manus 完成,看完了完成输出过程后,中间只因为下载失败,手动发送了数据集。其他时候完整经历了几次模型的迭代优化,还能根据Kaggle网上的要求输出对应的提交文件。在我看来完整度已经很高了。

o1 Deep Research的思路很6,登陆不了Kaggle,就选择绕开限制,在Github上使用对应的数据,比较可惜的就是生成了具体的代码脚本之后,没能把具体的结果数据提供给我

问题十、我是一个中学物理老师,正在准备教授动量守恒定律。你能制作一系列清晰准确的演示动画,并将它们整理成一个简单的演示html吗?

太顶了,这应该是这10个案例里面,Manus最让我惊喜的一次。其实看了上面九问,其实心中有预期,对于定律本身的信息收集来说,两个Agent都不会有问题。难度集中在用html搭建演示动画。跟中文的Doom一样,Manus很擅长在有限的环境完成代码编写和测试的。

o1 Deep Research 又帮我写一份教材,代码也没有,而且用文字来模拟动画,得亏它能想得出。

英文版的Case里,Manus整体变现是要比 o1 Deep Research 好不少。


 写在最后 

测完这十个问题已经是凌晨,

我觉得这时候已经可以回答标题里的问题了,

通用Agent真的抛弃OpenAI了吗?

我觉得没有,o1 Deep Research代码差一点,别的还是能打。

Manus会是纯套壳没有自己的优化吗?

我觉得是否定的,因为有一些细节,目前来说 Claude 和 o1 的表现并没有它好。

那它是不是就是一个代码写得好的Agent呢?

我觉得也是否定的,它在信息搜索、视觉设计、文本编写里面很接近 o1 Deep Research。

如果让我来形容它,我会觉得Manus是正在接近通用的Agent,现阶段的它可能还有些不足。

但无论如何,它都给我们提供了一个新的方向,这已经足够了。
接下来能掀起什么样的风浪,
我拭目以待。

@ 作者 / 卡尔 & 阿汤 @ 动手学AI知识库 / learnprompt.pro


(文:卡尔的AI沃茨)

欢迎分享

发表评论