还记得 2023 年初 ChatGPT 刚出来时,让它30 秒写一个“冒泡排序”都觉得很新鲜?弹指之间,今天的 AI agent 已经能自主几分钟内啃下人类程序员需要一小时乃至一天才能完成的需求了。
感觉 AI 进步太快跟不上?这可不是错觉。专注于 AI 能力评估的 METR 机构扔出重磅研究:AI 系统能搞定的编码任务复杂度(以人类所需时间衡量)正以惊人的指数速度增长,其“时间范围”(Time Horizon)——即 AI 能达到 50% 成功率的任务时长——大约每 7 个月就翻一番!

METR 测试了 2019 到 2025 年间最强的 AI Agent,用近 200 个任务(主要是编码,夹杂些推理)对它们进行了“大考”。结果清晰地显示:任务越耗时,AI 越难搞定,但它们能搞定的任务时长上限,确实在指数级飙升。
指数增长的未来预测:
如果这个“7 个月翻倍”的趋势保持下去,那画面太美不敢看:
-
2026年:搞定 2 小时任务 -
2027年:拿下 8 小时(1 工作日)任务 -
2028年:挑战 40 小时(1 周)任务 -
2029年:冲击 167 小时(1 个月)的大型项目

加速!趋势可能更快!

更刺激的是,这个增长似乎还在加速!METR 发现,随着模型能力大幅提升,在 2024-2025 年间,“时间范围”的翻倍时间已缩短到仅仅 4 个月。如果按这个“涡轮增压”的速度,搞定月度级任务可能2027 年就能实现!

当然,预测有风险,趋势也可能放缓。但反过来想,它也可能更快!特别是当 AI 开始越来越多地参与到开发下一代更强 AI 的工作中时,一个强大的“飞轮效应”可能被触发:AI 加速创造更强 AI,后者再进一步加速……这种自我强化的循环可能导致能力的超指数级增长。
历史性时刻?
METR的这一发现,它可能预示着一个生产力奇点的临近,其影响之深远,可能重塑软件开发乃至所有知识型工作,成为我们这个时代最值得关注的趋势之一。

(文:AI工程化)