最强AI工程师Devin 惨遭Cursor 完虐！真实测评：20个任务14次失败！

AI工程师Devin被Cursor完虐，这是一场毫无悬念的对决！

背负2100万美元A轮融资的Devin，号称为「第一位AI工程师」，还获得了包括Founders Fund、Collison兄弟和Elad Gil等科技大佬的支持。

但现实总是格外残酷。

Answer AI团队对Devin进行了为期一个月的深度测试，结果令人大跌眼镜：在20个实际任务中，14次失败，3次结果不明，仅3次成功。

更糟糕的是，这些失败似乎是全方位、无差别的，与任务难度毫无关联。

团队成员的反馈直白而尖锐：

「能完成的任务都太小太简单了，还不如我自己动手更快。而那些可能节省时间的大型任务，它基本都搞不定。」

「最开始我很兴奋，以为稍加调整就能用。但随着需要修改的东西越来越多，最后发现还不如从头开始写更好。」

那么，Devin到底败在哪里？

创建新项目？它给你一碗代码意面！

当团队要求Devin为LLM可观测性平台Braintrust生成并上传合成数据时，它生产的代码简直就是一团乱麻 —— 把简单的操作包裹在层层抽象中。

最终，团队不得不放弃Devin的方案，转而用Cursor一步步构建集成，效果反而更好。

处理已有代码？它陷入自己的幻觉！

在安全审查任务中，Devin对一个不到700行代码的GitHub仓库进行分析。

结果呢？

它不仅过度警惕，还幻想出了根本不存在的问题。这种分析用一个简单的LLM调用就能完成，根本不需要Devin这么复杂的操作。

研究性任务？它只会复读机！

面对文字转录时间戳这样的具体技术挑战，Devin只是机械地重复一些相关信息，既不能探索潜在解决方案，也不能识别核心技术难点。

它给出的代码示例更是完全没有触及问题的本质。

而且，每月500美元的价格让很多公司都不得不三思。

毕竟，这样的表现实在难以让人掏腰包。

工具再强大，最终还是要回归人机协作的本质。2025年伊始，这个真理依然没变。

团队最后发现：与Cursor的迭代式协作反而在许多任务上都能取得不错的效果，这些任务恰恰是Devin完全失败的地方。

完整测评报告：https://www.answer.ai/posts/2025-01-08-devin.html

看来，「第一位AI工程师」这顶帽子，还是戴早了！

只是不知道，我已经买了但还没用多少的Devin 可以申请个仅退款吗？

（文：AGI Hunt）