RL for LLMs,强化学习的 Scaling Law 才刚刚起步?
近期研究者通过奖励模型增强通用奖励模型在推理阶段的可扩展性,同时使用强化学习提升LLM性能。然而,当前强化学习算法仍有改进空间,奖励稀疏性是主要难点之一。
近期研究者通过奖励模型增强通用奖励模型在推理阶段的可扩展性,同时使用强化学习提升LLM性能。然而,当前强化学习算法仍有改进空间,奖励稀疏性是主要难点之一。
Satya Nadella 在微软Ignite大会上表示,关于扩展定律是否已经“撞墙”的争论有很多。他认为这些观察是长期有效的经验,并鼓励创新。他提出“测试时计算”作为新的扩展规律,并指出Copilot和AI技术栈将帮助构建一个由AI代理组成的未来世界。