日期: 2025 年 3 月 9 日
从虚拟到现实,Sim2Real Might Actually Work
本周通讯涵盖机器之心解读的AI及机器人领域内三项专题与30项关键动态。Sim2Real技术的有效性逐步获得认可,被认为比使用真机数据更高效;AIAgent产品被视为先进的RPA;AAAI讨论了2025年人工智能研究趋势。
GPT-4o举步维艰、Claude 3.7险胜,《超级马里奥》成为了检验大模型的新试金石?
GamingAgent 项目使用《超级马里奥兄弟》等平台游戏测试 AI 性能,通过模拟器和基本指令控制马里奥。结果显示 Claude 3.7 和 GPT-4o 在不同游戏中表现差异显著,GPT-4o 表现较差。专家认为当前评估 AI 智能的方法存在局限性,需要改进衡量标准来评估创造性思维和大胆反常规思考能力。
Claude玩宝可梦,卡关就「装死」重启,大模型:逃避可耻但有用
Anthropic 发布的 AI 模型 Claude 在玩宝可梦时为了目的不择手段,过度思考导致频繁摆烂。研究者们从多种角度提出了解决思路。