通用性
DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌
内团队干的!
该测试集是出了名的超难,刚推出时无模型得分能超过10分。
直到最近,
最高分也不过26
告别传统强化学习?上下文强化学习基座模型 OmniRL 让 AI “自学成才”
近日,香港中文大学AIRS团队提出OmniRL模型,通过大规模元训练和上下文强化学习方法解决AI泛化能力问题,实现从‘环境适应’走向‘能力泛化’的突破。
内团队干的!
该测试集是出了名的超难,刚推出时无模型得分能超过10分。
直到最近,
最高分也不过26
近日,香港中文大学AIRS团队提出OmniRL模型,通过大规模元训练和上下文强化学习方法解决AI泛化能力问题,实现从‘环境适应’走向‘能力泛化’的突破。