微软发布3.48T token训练数据集+高质量处理管线,覆盖通用、代码、数学、问答等关键领域 上午8时 2025/02/23 作者 NLP工程化 微软发布3.48T token训练数据集及高质量处理框架,覆盖通用、代码、数学和问答等多领域。REDSTONE项目显著提升数据质量和处理效率。