告别传统强化学习?上下文强化学习基座模型 OmniRL 让 AI “自学成才”
近日,香港中文大学AIRS团队提出OmniRL模型,通过大规模元训练和上下文强化学习方法解决AI泛化能力问题,实现从‘环境适应’走向‘能力泛化’的突破。
近日,香港中文大学AIRS团队提出OmniRL模型,通过大规模元训练和上下文强化学习方法解决AI泛化能力问题,实现从‘环境适应’走向‘能力泛化’的突破。
Sam Altman 在其个人博客发布文章《Three Observations》,提出关于AI经济学的三项观察:1.AI模型智能水平与训练资源呈对数关系;2.使用特定水平AI的成本每12个月下降约10倍;3.线性增长的智能将创造超指数级的社会经济价值。文中预测,未来AI Agent将能够胜任人类软件工程师工作。
DeepSeek V3 在两个月内迅速成为中国 AI 大模型的代表,并通过开源和亲民的价格策略赢得了广泛的关注。它采用强化学习技术,专注于“深度推理”,并以较低的成本提供了高效的 API 服务。