最强AI工程师Devin 惨遭Cursor 完虐!真实测评:20个任务14次失败!

AI工程师Devin被Cursor完虐,这是一场毫无悬念的对决!

背负2100万美元A轮融资的Devin,号称为「第一位AI工程师」,还获得了包括Founders Fund、Collison兄弟和Elad Gil等科技大佬的支持。

但现实总是格外残酷

Answer AI团队对Devin进行了为期一个月的深度测试,结果令人大跌眼镜:在20个实际任务中,14次失败,3次结果不明,仅3次成功

更糟糕的是,这些失败似乎是全方位、无差别的,与任务难度毫无关联。

团队成员的反馈直白而尖锐:

「能完成的任务都太小太简单了,还不如我自己动手更快。而那些可能节省时间的大型任务,它基本都搞不定。」

「最开始我很兴奋,以为稍加调整就能用。但随着需要修改的东西越来越多,最后发现还不如从头开始写更好。」

那么,Devin到底败在哪里

创建新项目?它给你一碗代码意面!

当团队要求Devin为LLM可观测性平台Braintrust生成并上传合成数据时,它生产的代码简直就是一团乱麻 —— 把简单的操作包裹在层层抽象中。

最终,团队不得不放弃Devin的方案,转而用Cursor一步步构建集成,效果反而更好。

处理已有代码?它陷入自己的幻觉!

在安全审查任务中,Devin对一个不到700行代码的GitHub仓库进行分析。

结果呢?

它不仅过度警惕,还幻想出了根本不存在的问题。这种分析用一个简单的LLM调用就能完成,根本不需要Devin这么复杂的操作。

研究性任务?它只会复读机!

面对文字转录时间戳这样的具体技术挑战,Devin只是机械地重复一些相关信息,既不能探索潜在解决方案,也不能识别核心技术难点。

它给出的代码示例更是完全没有触及问题的本质。

而且,每月500美元的价格让很多公司都不得不三思。

毕竟,这样的表现实在难以让人掏腰包。

工具再强大,最终还是要回归人机协作的本质。2025年伊始,这个真理依然没变。

团队最后发现:与Cursor的迭代式协作反而在许多任务上都能取得不错的效果,这些任务恰恰是Devin完全失败的地方。

完整测评报告:https://www.answer.ai/posts/2025-01-08-devin.html

看来,「第一位AI工程师」这顶帽子,还是戴早了!

只是不知道,我已经买了但还没用多少的Devin 可以申请个仅退款吗?

(文:AGI Hunt)

欢迎分享

发表评论