奖励模型归档 - 第2页共2页

无直接数据可用，AI怎么学会「干活」？微软团队揭秘AI从语言到行动的进化之路

下午11时 2025/01/21 作者机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000

下午11时 2025/01/13 作者极市干货

↑ 点击
蓝字
关注极市平台
作者丨ybq
来源丨NLP工作站
编辑丨极市平台
极市导读
本文探讨了

下午4时 2025/01/10 作者机器之心

机器之心报道
机器之心编辑部
OpenAI o1 给大模型规模扩展 vs 性能的曲线带来了一次上翘。

下午10时 2024/12/29 作者 AI技术研习社

从 0 到 1：用 RLHF 和 Python 构建奖励模型，全面提升语言模型能力！

下午8时 2024/11/28 作者量子位

清华大学与面壁团队开源新一代主动Agent交互范式，使AI具备主动观察环境和提出任务的能力。相比传统被动式Agent，主动式Agent能够预判用户需求并自主帮助解决问题。