完全开源的7B模型,性能比肩主流LLM,训练成本仅16万美元,复现DeepSeek的强化学习!

责编 |梦依丹
出品丨AI 科技大本营(ID:rgznai100)

自从 GPT-3 横空出世,生成式 AI 彻底点燃了全球科技圈:

  • GPT-4、Claude 3、Gemini、DeepSeek,不断刷新智能上限

  • 生成文字、代码、图像,跨模态进步一日千里

  • 各行各业争相拥抱大语言模型(LLMs),新的创业潮汹涌而来

尽管 LLMs 如 GPT-4、Claude 等展现了惊人的能力,但闭源模型的闭源特性让研究者难以深入理解其运作机制,同时开源模型的开放程度有限:

  • 绝大多数顶尖模型闭源,仅限 API 调用

  • 商业化受限,API 费用高昂,且随时可能涨价

  • 数据隐私、合规性问题难以把控
  • 对于开源模型,往往只公开模型权重,而关键的训练代码、数据集和配置却被隐藏,这严重阻碍了学术研究和商业化应用

Moxin-7B:从预训练到强化学习,全面透明的 AI 革新

Moxin-7B 的诞生,正是为了解决这一问题! 它由来自东北大学、哈佛、康奈尔等机构的研究团队联合开发,完全遵循“开源科学”原则,公开了从数据清洗到强化学习的全流程细节,从预训练到 DeepSeek 同款强化学习,成为目前透明度最高的开源 LLM 之一。
Moxin-7B 的开源贡献
  • Moxin-7B-Base 权重、预训练数据与代码
  • Moxin-7B-Instruct 权重、SFT 与 DPO 的训练数据与代码
  • Moxin-7B-Reasoning 权重、GRPO 的训练数据与代码
Moxin-7B 的三大核心突破
1. 真正的“开源科学”:从数据到模型的全透明
  • 完整公开:包括预训练代码、超参数配置、数据处理脚本、SFT/RLHF 训练框架,权重等等。
  • 数据集透明:
预训练数据:基于高质量语料库 SlimPajama(627B tokens)和 DCLM-BASELINE,经过严格去重和过滤。
指令微调数据:使用 Tulu 3 和 Infinity Instruct,涵盖数学、代码、科学文献等多领域任务。
强化学习数据:采用 OpenThoughts 和 OpenR1-Math-220k,通过 DeepSeek R1 生成的高质量数学推理数据。
2. 高性能低成本:小模型的大能量
  • 训练成本仅 16 万美元(对比:GPT-3 训练成本约 460 万美元)。
  • 评测表现亮眼:
零样本任务:在 ARC-C(AI2推理挑战)上达到 58.64%,超越 LLaMA 3.1-8B(53.67%)和 Qwen2-7B(50.09%)。
数学推理:经过 RL 微调后,在 MATH-500 上准确率 68%,超越 70B 参数的Llama-3-Instruct 模型(64.6%)。
长上下文支持:通过滑动窗口注意力(SWA)和分组查询注意力(GQA),高效处理 32K 长文本。
3. 技术创新:从架构到训练策略
  • 模型架构:基于 Mistral-7B 改进,深度扩展至 36 层,采用预层归一化和混合精度训练,提升稳定性。
  • 后训练优化:
指令微调(SFT):使用 Tulu 3 框架,在 939K 指令数据上训练,增强多任务能力。
偏好优化(DPO):通过 LLM-as-a-judge 标注的偏好数据,让模型输出更符合人类价值观。
  • 强化学习(RL):
采用 GRPO 算法(类似 DeepSeek R1),仅用 7B 参数即可实现高效推理。
训练框架 DeepScaleR 和 AReal 均开源,支持社区复现。
体现出强化学习对 7B 规模的小模型也有效果。

技术细节大揭秘:打造强力 7B 模型的秘密

1. 基础架构:在 Mistral-7B 上全面增强
  • 36层 Transformer(比原版 Mistral-7B 的32层更深)
  • 4096维隐藏层,32个Attention头
  • GQA(Grouped Query Attention)+ SWA(Sliding Window Attention),支持32K上下文处理,且推理速度更快、内存占用更低
  • 混合精度训练(FP16)+ 激活检查点(Activation Checkpointing),显著减少训练显存开销
  • 采用“滚动缓存机制”,在超长文本推理时,将注意力存储限制在固定窗口,既保持推理质量,又避免显存爆炸
2. 数据策略:质量远胜普通爬虫数据
Moxin-7B 使用了极为精细的数据筛选流程:
  • 文本数据:SlimPajama + DCLM-Baseline
去除短文本、低质量、重复网页,提升语料干净度
基于 MinHash-LSH 技术做跨域去重,相似度阈值控制在 0.8 以内
清洗后仅保留约 627B Token(RedPajama 原版的 49% 大小),但信息密度更高
  • 代码数据:The Stack-dedup
6TB 开源许可代码,涵盖 358 种语言
进一步近似去重,避免重复训练,移除 40% 以上重复或近重复代码片段
助力模型在编码理解、代码生成任务上有优异表现,提升推理能力
  • 推理/数学增强数据:
采用高质量公开数据
集中提升推理、数学、常识问答等方面能力
3. 训练过程:高效且可控
  • 三阶段预训练策略:
1.基础阶段(2K context)
2.长上下文阶段(4K context)
3.能力强化阶段
  • 使用 Colossal-AI 进行训练加速:
1.混合并行(Data Parallelism + Model Parallelism)
2.ZeRO 优化(减少冗余存储)
3.混合精度训练
4.动态调度、异步通信加速
  • 训练成本仅约 16 万美元!
1.为小型研究团队/企业提供了现实范例
4. 微调与强化学习:能力全面拉满!
预训练结束后,Moxin 团队采用双路线后期优化:
  • 指令微调(SFT+DPO)
采用 open-instruct 开源框架
基于Tülu 3和Infinity Instruct数据集,采用多源指令数据(如CoCoNot, OpenMathInstruct, Evol-CodeAlpaca等)
使用 DPO(Direct Preference Optimization)进一步对齐人类偏好
结果:生成回答更流畅、理解指令更准确
  • 推理强化(CoT + GRPO)
使用高质量链式推理数据(OpenThoughts、OpenR1-Math等)进行微调
引入 GRPO 强化学习,提升复杂推理/数学答题能力
采用开源训练框架 DeepScaleR,支持社区复现
结果:Moxin Reasoning 模型,在数学推理能力上表现卓越
5.Moxin vs. 主流模型:实测对比
  • Base 模型
Zero-shot 测试
表中 Moxin-7B-Enhanced 即为 Moxin-7B-Base 模型,可以观察到,相比于其他 Base 模型如 Qwen2-7B、Llama3.1-8B 等,Moxin-7B-Base 表现出强劲性能。   
  • Few-shot 测试    
表中 Moxin-7B-Enhanced 即为 Moxin-7B-Base 模型,可以观察到,相比于其他 Base 模型如 Qwen2-7B、Llama3.1-8B 等,Moxin-7B-Base 表现出强劲性能。   
  • Instruct 模型
表中Moxin-7B-DPO即为Moxin-7B-Instrcut模型,可以观察到,相比于其他Instruct模型如Qwen2.5-7B-Instruct,Moxin-7B-Instruct表现亮眼。
  • Reasoning 模型        
相比于其他baselines如Qwen2.7-Math-7B-Base,Moxin-7B-Reasoning表现突出,体现出强化学习对7B规模的小模型也有效果。
结语:开源的力量

Moxin-7B 证明了一点:高性能 LLM 不必是黑箱。它的全透明策略不仅降低了研究门槛,还为中小企业提供了可控的AI解决方案。Moxin-7B 的开源贡献:
  • Moxin-7B-Base 权重、预训练数据与代码
  • Moxin-7B-Instruct 权重、SFT 与 DPO 的训练数据与代码
  • Moxin-7B-Reasoning 权重、GRPO 的训练数据与代码
立即体验:
  • GitHub:github.com/moxin-org/Moxin-LLM
  • HuggingFace:huggingface.co/moxin-org

(文:AI科技大本营)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往