一个第三方魔改的DeekSeek模型,省流:性能比V3好,速度比RI快

DeepSeek-TNG-R1T2-Chimera 是由 TNG Technology 使用三种 DeepSeek 父模型组装出的“专家混合体”语言模型,在智能、响应速度和一致性上实现平衡,相比前代提升显著并修复了关键的  token 问题。

  • 三亲模型融合:不同于前代只融合两个父模型,R1T2 通过“Assembly of Experts”方法,将 R1-0528、R1 和 V3-0324 三者融合,并引入精细的“脑编辑”技术。

  • 性能平衡的“甜点区”:相较于 R1 和 R1T,R1T2 提供约 20% 更快的推理速度、更高的智能测试成绩(如 AIME-24/25、GPQA-Diamond)以及更好的  token 一致性。

  • 推荐场景对比:如果追求推理能力优于 V3 且速度优于 R1-0528,R1T2 被视为 R1 的“几乎通用、可直接替换”的升级;不适合高强度函数调用场景(遗留自 R1 父模型的局限)。

  • 智能测试成绩:在 AIME-24 上得分 82.3(显著高于 V3-0324 的 59.4),在 GPQA-Diamond 上也领先于同类。

  • 训练与推理细节:推荐温度 0.2、最大 context 长度约 60k token(尽管曾成功处理过 13 万上下文)。

  • 法律和合规提示:提醒 EU 用户在 2025 年 8 月 1 日后遵守欧盟 AI 法案,或停止使用。

  • 底层架构:基于 DeepSeek-MoE(Mixture of Experts)Transformer 架构,结合定制化的蒸馏、视觉编码和长上下文缓存优化。

  • 设计团队背景:由慕尼黑 TNG 团队开发,并公开感谢 DeepSeek 提供开源支持与模型合并方法的先行研究。

参考文献:
[1] https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera



知识星球:Dify源码剖析及答疑,Dify扩展系统源码,AI书籍课程|AI报告论文,公众号付费资料。加微信buxingtianxia21进NLP工程化资料群,以及Dify交流群。

(文:NLP工程化)

发表评论