Synthetic-Data-Zero-RL:让 RL 左脚踩右脚
MLNLP社区致力于促进自然语言处理领域的学术与产业交流合作。通过PromptCoT等方法生成高质量数据集,提高模型性能。近期实验表明基于PromptCoT合成的数据可用于零样本强化学习训练,提升效果接近官方预训练模型。
MLNLP社区致力于促进自然语言处理领域的学术与产业交流合作。通过PromptCoT等方法生成高质量数据集,提高模型性能。近期实验表明基于PromptCoT合成的数据可用于零样本强化学习训练,提升效果接近官方预训练模型。