-
团队对Devin进行了系统性测试,涵盖创建新项目、研究任务、分析和修改现有项目等类别,共20个任务,结果14个失败,3个成功,3个结果不明。 -
Devin能完成的任务太小太明确,不如自己快速完成;对于可能节省时间的较大任务,Devin又很可能失败。与Devin相比,开发者主导的工作流程(如Cursor)避免了大多数问题。
创建新项目
-
行星追踪器:成功,通过手机操作完成。
-
从Notion迁移到Google Sheets:成功,Devin自行阅读API文档并指导设置凭证。
-
多应用部署到Railway:结果不明,任务本身不可能完成,但Devin仍尝试并产生了错误的设想。
-
生成合成数据并上传到Braintrust:失败,Devin产生复杂代码并陷入错误修复。
-
创建两个应用之间的集成:失败,Devin产生的代码混乱难以理解。
-
通过Google Scholar链接抓取论文:失败,Devin陷入HTML解析的困境。
-
创建HTMX批量上传示例应用:失败,示例不工作且不简洁。
-
创建DaisyUI主题以匹配FrankenUI主题:失败,Devin映射的主题匹配不佳且代码变化多难以理解。
研究任务
-
研究如何制作Discord机器人:成功,Devin提供了有用的逐步计划和伪代码。
-
研究带准确时间戳的转录总结:失败,Devin未能解决核心问题,提供的代码和示例无帮助。
-
创建最小DaisyUI主题示例:失败,Devin最终创建的应用主题未实际生效。
分析现有代码
-
进行代码库安全审查:结果不明,Devin过度敏感,产生了不存在的问题。
-
审查博客文章并提出改进的拉取请求:失败,Devin未能理解静态网站生成器Quarto的工作方式。
-
审查应用并识别潜在改进区域:失败,Devin提供的建议无意义。
-
调试设置脚本中SSH密钥转发问题:结果不明,Devin未能提示问题可能在别处,未帮助发现根本原因。
修改现有项目
-
修改nbdev项目:失败,Devin未能成功操作,尽管进展显著,但最终代码无意义。
-
将Python项目迁移到nbdev:失败,Devin在基本nbdev设置上陷入困境。
-
将样式包集成到FastHTML中:失败,Devin无法处理nbdev仓库。
-
添加检查用户输入与数据库冲突的功能:失败,团队成员花费数小时尝试后放弃,自行编写功能。
-
为fasthtml画廊示例生成LLMs上下文文件:失败,Devin创建的文件格式不正确,添加了不必要的依赖和测试代码。
https://www.answer.ai/posts/2025-01-08-devin.html
(文:PaperAgent)