为什么 AI 模型离科学革命还差得很远?

文章探讨了人工智能可能带来的‘压缩的21世纪’概念,并指出当前的发展路径更可能导致类似‘听话的好学生’而非科学突破的情况。作者通过自身经历和历史案例强调,真正的科学创新需要提出新问题、挑战现有知识体系。他建议重新定义AI模型评估标准,以促进真正具有科学思维的系统出现。

GPT-4o举步维艰、Claude 3.7险胜,《超级马里奥》成为了检验大模型的新试金石?

GamingAgent 项目使用《超级马里奥兄弟》等平台游戏测试 AI 性能,通过模拟器和基本指令控制马里奥。结果显示 Claude 3.7 和 GPT-4o 在不同游戏中表现差异显著,GPT-4o 表现较差。专家认为当前评估 AI 智能的方法存在局限性,需要改进衡量标准来评估创造性思维和大胆反常规思考能力。