Reinforcement Learning归档

9年实现爱因斯坦级AGI？OpenAI科学家Dan Roberts谈强化学习扩展的未来

下午4时 2025/05/10 作者机器之心

OpenAI 研究科学家 Dan Roberts 在 AI Ascent 上介绍了强化学习和预训练的进步，预测未来 AI 模型将在测试时间扩展方面发挥更大作用，并希望模型能在科学前沿做出重大贡献。他强调需要大规模扩展计算和科学，目标是在 2034 年使 AI 能够进行长达 8 小时的计算与思考。

下午11时 2025/04/20 作者新智元

新创公司Mechanize旨在通过AI智能体全面自动化所有工作和经济，目标市场规模达60万亿美元。该公司已获多家投资，并计划用虚拟环境和强化学习训练数据来实现这一目标。然而，这一计划引发了广泛争议与批评。

下午11时 2025/04/03 作者机器之心

真实网络环境中通过强化学习训练的 AI 研究模型
。
随着大型语言模型（LLMs）推理能力的飞速发展

上午8时 2025/03/06 作者 AI寒武纪

重磅消息！ACM图灵奖揭晓2024年得主Andrew Barto和Richard Sutton因强化学习领域的奠基性贡献获奖。两位教授是AI核心技术——强化学习的先驱，推动了AlphaGo战胜人类围棋冠军和ChatGPT等技术的发展。

下午12时 2025/01/29 作者新智元

新智元报道
编辑：桃子好困
【新智元导读】
DeeSeek R1横空出世撼动了整个硅谷，这波AI恐

MLNLP社区发布了最新模型Kimi k1.5，其在数学推理方面表现突出，并分享了强化学习数据收集和基础设施部署框架等内容。