端到端Agent训练pipeline 归档 - 每时AI

性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力已开源

2025年7月1日11时作者量子位

招商局狮子山人工智能实验室的研究团队通过RLVR范式让模型自主进化出探索、验证与记忆能力，显著提升了模型在多个基准测试上的性能。