GRPO系列技术归档

DeepSeek-R1-Zero被“轻松复现”？10%训练步数实现数学代码双领域对齐

下午11时 2025/04/24 作者 PaperWeekly

通过SRPO方案，快手Kwaipilot团队在处理数学与代码混合数据时实现了效率和效果的双赢。SRPO结合了两阶段训练范式和历史重采样技术，仅用10%的训练步数，在AIME24和LiveCodeBench基准测试中超越了现有模型的表现。