零样本强化学习归档

Synthetic-Data-Zero-RL：让 RL 左脚踩右脚

MLNLP社区致力于促进自然语言处理领域的学术与产业交流合作。通过PromptCoT等方法生成高质量数据集，提高模型性能。近期实验表明基于PromptCoT合成的数据可用于零样本强化学习训练，提升效果接近官方预训练模型。