月薪3500的AI程序员Devin一个月试用期都没过~

Devin号称能成为完全自主的软件工程师,像人类同事一样聊天,从学习新技术到部署应用无所不能。Answer.AI团队进行了为期一个月的测试,表现并不如预期:

  • 团队对Devin进行了系统性测试,涵盖创建新项目、研究任务、分析和修改现有项目等类别,共20个任务,结果14个失败,3个成功,3个结果不明
  • Devin能完成的任务太小太明确,不如自己快速完成;对于可能节省时间的较大任务,Devin又很可能失败。与Devin相比,开发者主导的工作流程(如Cursor)避免了大多数问题。

创建新项目

  • 行星追踪器:成功,通过手机操作完成。

  • 从Notion迁移到Google Sheets:成功,Devin自行阅读API文档并指导设置凭证。

  • 多应用部署到Railway:结果不明,任务本身不可能完成,但Devin仍尝试并产生了错误的设想。

  • 生成合成数据并上传到Braintrust:失败,Devin产生复杂代码并陷入错误修复。

  • 创建两个应用之间的集成:失败,Devin产生的代码混乱难以理解。

  • 通过Google Scholar链接抓取论文:失败,Devin陷入HTML解析的困境。

  • 创建HTMX批量上传示例应用:失败,示例不工作且不简洁。

  • 创建DaisyUI主题以匹配FrankenUI主题:失败,Devin映射的主题匹配不佳且代码变化多难以理解。

研究任务

  • 研究如何制作Discord机器人:成功,Devin提供了有用的逐步计划和伪代码。

  • 研究带准确时间戳的转录总结:失败,Devin未能解决核心问题,提供的代码和示例无帮助。

  • 创建最小DaisyUI主题示例:失败,Devin最终创建的应用主题未实际生效。

分析现有代码

  • 进行代码库安全审查:结果不明,Devin过度敏感,产生了不存在的问题。

  • 审查博客文章并提出改进的拉取请求:失败,Devin未能理解静态网站生成器Quarto的工作方式。

  • 审查应用并识别潜在改进区域:失败,Devin提供的建议无意义。

  • 调试设置脚本中SSH密钥转发问题:结果不明,Devin未能提示问题可能在别处,未帮助发现根本原因。

修改现有项目

  • 修改nbdev项目:失败,Devin未能成功操作,尽管进展显著,但最终代码无意义。

  • 将Python项目迁移到nbdev:失败,Devin在基本nbdev设置上陷入困境。

  • 将样式包集成到FastHTML中:失败,Devin无法处理nbdev仓库。

  • 添加检查用户输入与数据库冲突的功能:失败,团队成员花费数小时尝试后放弃,自行编写功能。

  • 为fasthtml画廊示例生成LLMs上下文文件:失败,Devin创建的文件格式不正确,添加了不必要的依赖和测试代码。

https://www.answer.ai/posts/2025-01-08-devin.html

(文:PaperAgent)

欢迎分享

发表评论