ICML 2025 如何在合成文本数据时避免模型崩溃?

生成式人工智能技术下合成数据成为大模型训练的重要组成部分。然而,研究团队提出了一种创新方法Token-Level Editing,以避免模型崩溃问题,通过微编辑而非纯生成来构建稳定、泛化性强的半合成数据。