强化学习 (RL)归档

特斯拉擎天柱机器人最新进展：“零样本”魔性舞蹈秀翻全场，全靠模拟器苦练？

下午4时 2025/05/14 作者 AI寒武纪

特斯拉展示了擎天柱机器人通过强化学习在模拟环境中训练并实现‘零样本迁移’的最新成果。这次演示展示了机器人能够在真实世界中成功执行复杂动作，省去了大量调试时间和成本。

下午11时 2025/05/11 作者 AI寒武纪

Andrej Karpathy提出LLM学习中缺失的环节是’系统提示词学习’。他认为人类的学习更多是通过明确的语言记住解决问题的方法，而非零散的记忆。Karpathy还分析了Claude系统的惊人提示词内容及其潜在应用价值。

下午11时 2025/04/21 作者机器之心

微软副总裁 Nando de Freitas 提出 AI 是一场系统性工程的观点，反对单一技术的过度宣传。他认为AI的进步需要成千上万人的共同努力，并强调了多元参与和技术探索的重要性。

下午4时 2025/01/26 作者 AI寒武纪

来自加州伯克利大学的研究团队以极低的成本（低于30美元）成功复现了DeepSeek R1-Zero的关键技术，并在‘倒计时’游戏中展示了小型语言模型的强大自验证和搜索能力。