以小博大,微软Phi-4正式发布~

OpenAI近期年底大戏持续放出各种技能,微软也坐不住了,正式发布了Phi-4,一个拥有14B参数的语言模型,并发布了技术报告,其训练方法的核心重点是数据质量。
尽管与phi-3架构相比变化极小,但由于数据的改进、训练课程的优化以及后训练方案的创新,phi-4相对于其规模实现了强大的性能——特别是在以推理为重点的基准测试上。
  1. phi-4的核心支柱

    • 合成数据用于预训练和中期训练,以提高模型的推理和问题解决能力。

    • 对有机数据(如网页内容、书籍和代码库)进行策展和过滤,以提取高质量的数据种子。

    • 后训练阶段通过新的SFT(监督式微调)数据集和直接偏好优化(DPO)技术来提升模型性能。

  2. 数据方法:详细介绍了合成数据的目的和生成方法,包括种子策展、重写和增强、自我修订、指令反转以及代码和其他科学数据的验证。

  3. 预训练细节:描述了phi-4模型的架构和预训练过程,包括数据组成和中期训练的细节。

  4. 后训练:介绍了如何通过SFT和DPO将预训练模型转化为用户可以安全交互的AI助手,包括关键令牌搜索(PTS)技术来生成DPO数据。

phi-4数据处理方法
  1. 合成数据生成的原则

    • 多样性:数据应全面覆盖每个领域内的子主题和技能。

    • 细微差别和复杂性:有效的训练需要反映领域复杂性和丰富性的细微、非平凡的例子。

    • 准确性:代码应能正确执行,证明应有效,解释应符合已建立的知识等。

    • 思维链:数据应鼓励系统性推理,教会模型以逐步的方式解决问题。

  2. 预训练和中期训练的合成数据

    • 创建了50种不同类型的合成数据集,涵盖了广泛的主题、技能和互动性质,累积约4000亿未加权token。

    • 使用了多种新技术生成phi-4的合成数据集,包括种子策展、重写和增强、自我修订、指令反转以及代码和其他任务的验证。

  3. 有机数据的策展和过滤

    • 收集了数以百万计的高质量有机问题和解决方案,这些数据来自公开网站、现有数据集和外部数据集。

    • 针对高质量网络数据进行了专门的采集,优先选择推理密集和细腻的材料,如学术论文、教育论坛和编程教程。

  4. 后训练数据集

    • 后训练数据包括监督式微调(SFT)数据集和直接偏好优化(DPO)数据对。

    • SFT数据集使用来自多个领域的高质量数据生成,DPO数据对则基于拒绝采样和LLM评估生成。

https://arxiv.org/pdf/2412.08905

(文:PaperAgent)

欢迎分享

发表评论