自从 GPT-3 横空出世,生成式 AI 彻底点燃了全球科技圈:
-
GPT-4、Claude 3、Gemini、DeepSeek,不断刷新智能上限
-
生成文字、代码、图像,跨模态进步一日千里
-
各行各业争相拥抱大语言模型(LLMs),新的创业潮汹涌而来
尽管 LLMs 如 GPT-4、Claude 等展现了惊人的能力,但闭源模型的闭源特性让研究者难以深入理解其运作机制,同时开源模型的开放程度有限:
-
绝大多数顶尖模型闭源,仅限 API 调用
-
商业化受限,API 费用高昂,且随时可能涨价
-
数据隐私、合规性问题难以把控 -
对于开源模型,往往只公开模型权重,而关键的训练代码、数据集和配置却被隐藏,这严重阻碍了学术研究和商业化应用


-
Moxin-7B-Base 权重、预训练数据与代码 -
Moxin-7B-Instruct 权重、SFT 与 DPO 的训练数据与代码 -
Moxin-7B-Reasoning 权重、GRPO 的训练数据与代码
-
完整公开:包括预训练代码、超参数配置、数据处理脚本、SFT/RLHF 训练框架,权重等等。 -
数据集透明:
-
训练成本仅 16 万美元(对比:GPT-3 训练成本约 460 万美元)。 -
评测表现亮眼:
-
模型架构:基于 Mistral-7B 改进,深度扩展至 36 层,采用预层归一化和混合精度训练,提升稳定性。 -
后训练优化:
-
强化学习(RL):

-
36层 Transformer(比原版 Mistral-7B 的32层更深) -
4096维隐藏层,32个Attention头 -
GQA(Grouped Query Attention)+ SWA(Sliding Window Attention),支持32K上下文处理,且推理速度更快、内存占用更低 -
混合精度训练(FP16)+ 激活检查点(Activation Checkpointing),显著减少训练显存开销 -
采用“滚动缓存机制”,在超长文本推理时,将注意力存储限制在固定窗口,既保持推理质量,又避免显存爆炸
-
文本数据:SlimPajama + DCLM-Baseline
-
代码数据:The Stack-dedup
-
推理/数学增强数据:
-
三阶段预训练策略:
-
使用 Colossal-AI 进行训练加速:
-
训练成本仅约 16 万美元!
-
指令微调(SFT+DPO)
-
推理强化(CoT + GRPO)
-
Base 模型

-
Few-shot 测试

-
Instruct 模型

-
Reasoning 模型


-
Moxin-7B-Base 权重、预训练数据与代码 -
Moxin-7B-Instruct 权重、SFT 与 DPO 的训练数据与代码 -
Moxin-7B-Reasoning 权重、GRPO 的训练数据与代码
-
GitHub:github.com/moxin-org/Moxin-LLM -
HuggingFace:huggingface.co/moxin-org

(文:AI科技大本营)