AI Agent到底哪家强?横评五款主流Agent


最近,满地都是AI Agent,仅最近半个月,就爆出了10多款(详细介绍)。

来自近期在上海分享的PPT


AI Agent,现已成为继LLM(Large Language Model,大语言模型)后的时髦新宠,各家厂商疯狂推Agent犹如过江之鲫。


那么问题来了,到底哪个Agent更胜一筹?今天,我们就来给大家横向测评一下。


关于测评方法


我选择了5款热门的通用型AI Agent,分别是GensparkMiniMax AgentFlowith NeoManus扣子空间。


对于Agent来说,感知、思考、行动 、循环四个步骤中LLM都扮演了重要的角色。


如果分开每个步骤来对比,就变成了对比LLM的优劣。而Agent是一个框架,所以我们不去管它的任务处理过程如何,而是仅针对交付结果进行评判(本次测试皆为标准token投入)


每个Agent,我选了三个不同领域的任务进行统一测试:


1.检索微信公众号平台2025年来的热门AI话题前5,并总结原因分别输出为pdf、图表和html格式。(测试任务拆解、效率与准确性、多模态输出)


2.为我规划一个预算不超过3000元、4天3晚的成都旅游计划,必须包含川剧变脸、宽窄巷子和熊猫基地。(测试逻辑严谨和工具调用)


3.这是我家客厅照片,推荐合适的改造风格,并输出新风格的3D布置草图或改造建议图示。(测试图像理解、空间感知、创意输出、图文匹配)


横评3个Case



1)总结热门AI话题


先来一个最简单的,测试最基本的任务拆解能力,同时也看下效率和准确性。


Prompt:检索微信公众号平台2025年来的热门AI话题前5,并总结原因分别输出为pdf、图表和html格式。


  • 1.1)Genspark耗时12分43秒。


我们先来看下它输出的网页。


Genspark的HTML文件做得很规整,既搜罗了5大热门话题,还深度分析了原因,内容信息也比较准确。

<上下滑动图片查看全部内容>


可视化图表也完成得不错,无论是数据收集方向还是图表种类的使用都非常丰富,排版也很好看。

<上下滑动图片查看全部内容>


PDF文件可读性也不错,它对颜色的处理很到位,让人一眼就能看出每个段落或每个话题是从哪开始,到哪结束。

<上下滑动图片查看全部内容>


  • 1.2)扣子空间耗时10分15秒。


扣子空间找到的5个热门话题跟Genspark不一样,看来每个Agent都有自己的理解。


但是可以明显看出,扣子空间没有Genspark细致,没有对单个话题进行原因分析,只是在最后做了整体分析

<上下滑动图片查看全部内容>


图表看起来就很朴素了,实在不知道该如何评价,如果非要说的话,只能说这也算是表。


虽说PDF只是一种格式,但如果全是文字,不知道的还以为在COS那个Word文档呢。


还有,我提示词里要的原因分析,扣子空间你给我干哪去了……


  • 1.3)Manus耗时11分49秒。


整体要求达到了,既罗列了5个最热话题,也对具体问题进行了分析,算是达标。

<上下滑动图片查看全部内容>


然后,用了三种图表来展示各个热门话题的热度对比,非常直观。




不过,PDF部分……又给我干哪儿去了,不是说好的PDF吗?这不跟Word文档有啥区别,不过好歹分析的还算细致。


  • 1.4)MiniMax Agent耗时16分03秒。


MiniMax把这五个话题倒是列出来了,但是没有分析原因,排版也缺点美感。


图表…咋说呢,可能这就是MInimax Agent还是Bate版的原因吧。。。


虽然又是一版Word文档的PDF,但是该有的内容都有。热门话题简介和流行原因都说的还算明白,不过读起来,一股子AI味。

<上下滑动图片查看全部内容>


  • 1.5)Flowith Neo耗时19分27秒。


虽然耗时有点长,但是最终的结果还不错,不仅分析了话题流行的原因,还给出了相关的数据和案例支撑,研究得非常细致


<上下滑动图片查看全部内容>


图表整体来说,也算中规中矩(但说实话,比起前面的有些图表来说,普通也算优秀了,还添加了话题关联度分析图,我觉得很有新意。


<上下滑动图片查看全部内容>


PDF文件依旧是纯文字版,但是文字详实,分析有理有据,让我来写我怕是写不出来。


<上下滑动图片查看全部内容>


总的来说,这个任务我最喜欢的是Genspark,对于提示词的理解到位,输出的内容质量和形式也还不错(包括文字优化和视觉优化),在5款Agent中算是比较突出的。


2)旅游规划


再来测试下逻辑严谨性、工具调用方面。

Prompt:为我规划一个预算不超过3000元、4天3晚的成都旅游计划,必须包含川剧变脸、宽窄巷子和熊猫基地。


  • 2.1)Genspark耗时3分27秒。


整体规划中对景点和价格比较注重,细致罗列了各项支出,但是对游览时长和交通时长没有太多交代。

<上下滑动图片查看全部内容>


  • 2.2)扣子空间耗时2分56秒。


主要的景点,一个没有落下,但是对于预算规划有些敷衍,各景点、各美食的价格也没怎么交代,交通路线也没怎么规划。

<上下滑动图片查看全部内容>


  • 2.3)manus耗时3分15秒。


Manus整体的视觉效果非常好,很清晰,我想要的景点也都囊括了,而且还有详细的交通介绍与美食价格介绍。毕竟去旅游,有个参考价格还是蛮重要的。

<上下滑动图片查看全部内容>


  • 2.4)MiniMax Agent耗时22分45秒。


跟上一个任务的“拉跨”表现相比,MiniMax Agent在第二个任务里大为改观,整个旅游计划从景点,到交通,再到价格,都给我讲得明明白白的。


还给出了我想去的景点的详细介绍、美食详细介绍、住宿参考等。整体的风格非常小红书,对于旅游攻略来说,非常有用。

<上下滑动图片查看全部内容>


  • 2.5)Flowith耗时17分21秒。


Flowith的时间控制,在这几份旅游计划中算是非常精细了。表格式的计划让人一眼就懂,还给出了很多诸如住宿、餐饮、景点等有用信息,非常不错。


整体看来可能就是风格有点素,像是旅行团的官方文件。

<上下滑动图片查看全部内容>


总的来说,第二个任务花费时间较长的两个Agent所做出的效果也算对得起花费的时间,非要选个我觉得结果最好的话,我认为是MiniMax Agent


3)创意设计


最后,测试下图像理解、空间感知、创意输出、图文匹配。

Prompt:这是我家客厅照片,推荐合适的改造风格,并输出新风格的3D布置草图或改造建议图示。


  • 3.1)Genspark耗时5分43秒。


Genspark的识图能力很优秀,空间感很好,它生成的图片布局跟我给它的图片布局一致。出图效果也很好,图片风格和文字描述匹配。

<上下滑动图片查看全部内容>


  • 3.2)扣子空间耗时3分18秒。


扣子空间给的风格图,看起来都很好看。但是没有一张是按照原图的空间布局来设计的,应该是没有理解原图和我的Prompt。

<上下滑动图片查看全部内容>


  • 3.3)Manus耗时5分06秒。


Manus的图片理解也很不错,生成的图片空间布局与原图一致,效果也很不错,就是有点太样板间了。


<上下滑动图片查看全部内容>


  • 3.4)MiniMax Agent耗时21分17秒。


方案给得非常多,数据罗列也非常仔细,可惜就是没有读懂我的图。那,所有工作不是白费嘛……


<上下滑动图片查看全部内容>


  • 3.5)Flowith耗时15分45秒。


虽然Flowith只给出了一种风格,但是我从它生的图和文字表达来看,它读懂了原图的空间布局。而且装修方案也很细致,各方面都有考虑到。


<上下滑动图片查看全部内容>


最后一个任务,最优秀的当属Flowith,真的是很细致的分析了从色彩到灯光等各个方面的选择,可以直接拿来当装修参考方案了。


写在最后


从3个测试任务来看,Genspark这个Agent发挥最为稳定,每个任务的完成度都很高


Manus则是最平均的那个,每个任务都能做,而且都在及格线以上。


MiniMax Agent和扣子空间,虽然在某些任务上不尽如意,但都有自己非常擅长的地方。


Flowith Neo则稍逊Genspark、略胜Manus,但是它每个任务的时长都比较长,使用这款Agent需要点耐心。


当然,现阶段这些Agent都支持大家免费体验。所以,你不妨把一个任务放到各家Agent里都去试试。说不定,会有意想不到的事情发生


毕竟,这是AI随机之美。


(文:沃垠AI)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往