AI工程师Devin被Cursor完虐,这是一场毫无悬念的对决!
背负2100万美元A轮融资的Devin,号称为「第一位AI工程师」,还获得了包括Founders Fund、Collison兄弟和Elad Gil等科技大佬的支持。
但现实总是格外残酷。
Answer AI团队对Devin进行了为期一个月的深度测试,结果令人大跌眼镜:在20个实际任务中,14次失败,3次结果不明,仅3次成功。
更糟糕的是,这些失败似乎是全方位、无差别的,与任务难度毫无关联。
团队成员的反馈直白而尖锐:
「能完成的任务都太小太简单了,还不如我自己动手更快。而那些可能节省时间的大型任务,它基本都搞不定。」
「最开始我很兴奋,以为稍加调整就能用。但随着需要修改的东西越来越多,最后发现还不如从头开始写更好。」
那么,Devin到底败在哪里?
创建新项目?它给你一碗代码意面!
当团队要求Devin为LLM可观测性平台Braintrust生成并上传合成数据时,它生产的代码简直就是一团乱麻 —— 把简单的操作包裹在层层抽象中。
最终,团队不得不放弃Devin的方案,转而用Cursor一步步构建集成,效果反而更好。
处理已有代码?它陷入自己的幻觉!
在安全审查任务中,Devin对一个不到700行代码的GitHub仓库进行分析。
结果呢?
它不仅过度警惕,还幻想出了根本不存在的问题。这种分析用一个简单的LLM调用就能完成,根本不需要Devin这么复杂的操作。
研究性任务?它只会复读机!
面对文字转录时间戳这样的具体技术挑战,Devin只是机械地重复一些相关信息,既不能探索潜在解决方案,也不能识别核心技术难点。
它给出的代码示例更是完全没有触及问题的本质。
而且,每月500美元的价格让很多公司都不得不三思。
毕竟,这样的表现实在难以让人掏腰包。
工具再强大,最终还是要回归人机协作的本质。2025年伊始,这个真理依然没变。
团队最后发现:与Cursor的迭代式协作反而在许多任务上都能取得不错的效果,这些任务恰恰是Devin完全失败的地方。
完整测评报告:https://www.answer.ai/posts/2025-01-08-devin.html
看来,「第一位AI工程师」这顶帽子,还是戴早了!
只是不知道,我已经买了但还没用多少的Devin 可以申请个仅退款吗?
(文:AGI Hunt)