完全开源的7B模型，性能比肩主流LLM，训练成本仅16万美元，复现DeepSeek的强化学习！

责编 |梦依丹

出品丨AI 科技大本营（ID：rgznai100）

自从 GPT-3 横空出世，生成式 AI 彻底点燃了全球科技圈：

GPT-4、Claude 3、Gemini、DeepSeek，不断刷新智能上限
生成文字、代码、图像，跨模态进步一日千里
各行各业争相拥抱大语言模型（LLMs），新的创业潮汹涌而来

尽管 LLMs 如 GPT-4、Claude 等展现了惊人的能力，但闭源模型的闭源特性让研究者难以深入理解其运作机制，同时开源模型的开放程度有限：

绝大多数顶尖模型闭源，仅限 API 调用
商业化受限，API 费用高昂，且随时可能涨价
数据隐私、合规性问题难以把控
对于开源模型，往往只公开模型权重，而关键的训练代码、数据集和配置却被隐藏，这严重阻碍了学术研究和商业化应用

Moxin-7B：从预训练到强化学习，全面透明的 AI 革新

Moxin-7B 的诞生，正是为了解决这一问题！它由来自东北大学、哈佛、康奈尔等机构的研究团队联合开发，完全遵循“开源科学”原则，公开了从数据清洗到强化学习的全流程细节，从预训练到 DeepSeek 同款强化学习，成为目前透明度最高的开源 LLM 之一。

Moxin-7B 的开源贡献

Moxin-7B-Base 权重、预训练数据与代码
Moxin-7B-Instruct 权重、SFT 与 DPO 的训练数据与代码
Moxin-7B-Reasoning 权重、GRPO 的训练数据与代码

Moxin-7B 的三大核心突破

1. 真正的“开源科学”：从数据到模型的全透明

完整公开：包括预训练代码、超参数配置、数据处理脚本、SFT/RLHF 训练框架，权重等等。
数据集透明：

预训练数据：基于高质量语料库 SlimPajama（627B tokens）和 DCLM-BASELINE，经过严格去重和过滤。

指令微调数据：使用 Tulu 3 和 Infinity Instruct，涵盖数学、代码、科学文献等多领域任务。

强化学习数据：采用 OpenThoughts 和 OpenR1-Math-220k，通过 DeepSeek R1 生成的高质量数学推理数据。

2. 高性能低成本：小模型的大能量

训练成本仅 16 万美元（对比：GPT-3 训练成本约 460 万美元）。
评测表现亮眼：

零样本任务：在 ARC-C（AI2推理挑战）上达到 58.64%，超越 LLaMA 3.1-8B（53.67%）和 Qwen2-7B（50.09%）。

数学推理：经过 RL 微调后，在 MATH-500 上准确率 68%，超越 70B 参数的Llama-3-Instruct 模型（64.6%）。

长上下文支持：通过滑动窗口注意力（SWA）和分组查询注意力（GQA），高效处理 32K 长文本。

3. 技术创新：从架构到训练策略

模型架构：基于 Mistral-7B 改进，深度扩展至 36 层，采用预层归一化和混合精度训练，提升稳定性。
后训练优化：

指令微调（SFT）：使用 Tulu 3 框架，在 939K 指令数据上训练，增强多任务能力。

偏好优化（DPO）：通过 LLM-as-a-judge 标注的偏好数据，让模型输出更符合人类价值观。

强化学习（RL）：

采用 GRPO 算法（类似 DeepSeek R1），仅用 7B 参数即可实现高效推理。

训练框架 DeepScaleR 和 AReal 均开源，支持社区复现。

体现出强化学习对 7B 规模的小模型也有效果。

技术细节大揭秘：打造强力 7B 模型的秘密

1. 基础架构：在 Mistral-7B 上全面增强

36层 Transformer（比原版 Mistral-7B 的32层更深）
4096维隐藏层，32个Attention头
GQA（Grouped Query Attention）+ SWA（Sliding Window Attention），支持32K上下文处理，且推理速度更快、内存占用更低
混合精度训练（FP16）+ 激活检查点（Activation Checkpointing），显著减少训练显存开销
采用“滚动缓存机制”，在超长文本推理时，将注意力存储限制在固定窗口，既保持推理质量，又避免显存爆炸

2. 数据策略：质量远胜普通爬虫数据

Moxin-7B 使用了极为精细的数据筛选流程：

文本数据：SlimPajama + DCLM-Baseline

去除短文本、低质量、重复网页，提升语料干净度

基于 MinHash-LSH 技术做跨域去重，相似度阈值控制在 0.8 以内

清洗后仅保留约 627B Token（RedPajama 原版的 49% 大小），但信息密度更高

代码数据：The Stack-dedup

6TB 开源许可代码，涵盖 358 种语言

进一步近似去重，避免重复训练，移除 40% 以上重复或近重复代码片段

助力模型在编码理解、代码生成任务上有优异表现，提升推理能力

推理/数学增强数据：

采用高质量公开数据

集中提升推理、数学、常识问答等方面能力

3. 训练过程：高效且可控

三阶段预训练策略：

1.基础阶段（2K context）

2.长上下文阶段（4K context）

3.能力强化阶段

使用 Colossal-AI 进行训练加速：

1.混合并行（Data Parallelism + Model Parallelism）

2.ZeRO 优化（减少冗余存储）

3.混合精度训练

4.动态调度、异步通信加速

训练成本仅约 16 万美元！

1.为小型研究团队/企业提供了现实范例

4. 微调与强化学习：能力全面拉满！

预训练结束后，Moxin 团队采用双路线后期优化：

指令微调（SFT+DPO）

采用 open-instruct 开源框架

基于Tülu 3和Infinity Instruct数据集，采用多源指令数据（如CoCoNot, OpenMathInstruct, Evol-CodeAlpaca等）

使用 DPO（Direct Preference Optimization）进一步对齐人类偏好

结果：生成回答更流畅、理解指令更准确

推理强化（CoT + GRPO）

使用高质量链式推理数据（OpenThoughts、OpenR1-Math等）进行微调

引入 GRPO 强化学习，提升复杂推理/数学答题能力

采用开源训练框架 DeepScaleR，支持社区复现

结果：Moxin Reasoning 模型，在数学推理能力上表现卓越

5.Moxin vs. 主流模型：实测对比

Base 模型

Zero-shot 测试

表中 Moxin-7B-Enhanced 即为 Moxin-7B-Base 模型，可以观察到，相比于其他 Base 模型如 Qwen2-7B、Llama3.1-8B 等，Moxin-7B-Base 表现出强劲性能。

Few-shot 测试

表中 Moxin-7B-Enhanced 即为 Moxin-7B-Base 模型，可以观察到，相比于其他 Base 模型如 Qwen2-7B、Llama3.1-8B 等，Moxin-7B-Base 表现出强劲性能。

Instruct 模型

表中Moxin-7B-DPO即为Moxin-7B-Instrcut模型，可以观察到，相比于其他Instruct模型如Qwen2.5-7B-Instruct，Moxin-7B-Instruct表现亮眼。

Reasoning 模型

相比于其他baselines如Qwen2.7-Math-7B-Base，Moxin-7B-Reasoning表现突出，体现出强化学习对7B规模的小模型也有效果。

结语：开源的力量

Moxin-7B 证明了一点：高性能 LLM 不必是黑箱。它的全透明策略不仅降低了研究门槛，还为中小企业提供了可控的AI解决方案。Moxin-7B 的开源贡献：

Moxin-7B-Base 权重、预训练数据与代码
Moxin-7B-Instruct 权重、SFT 与 DPO 的训练数据与代码
Moxin-7B-Reasoning 权重、GRPO 的训练数据与代码

立即体验：

GitHub：github.com/moxin-org/Moxin-LLM
HuggingFace：huggingface.co/moxin-org

（文：AI科技大本营）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

发表评论取消回复