腾讯混元A13B用130亿参数达到千亿级效果,Flash Attention作者点赞
腾讯混元团队发布的Hunyuan-A13B模型,仅通过激活130亿参数就展现了与千亿级大模型相抗衡的能力。该模型采用了细粒度MoE架构,在单张中端GPU上运行性能出色,已在腾讯云上线API服务。模型采用了高质量预训练和结构化后训练技术,并且支持多种推理框架。
腾讯混元团队发布的Hunyuan-A13B模型,仅通过激活130亿参数就展现了与千亿级大模型相抗衡的能力。该模型采用了细粒度MoE架构,在单张中端GPU上运行性能出色,已在腾讯云上线API服务。模型采用了高质量预训练和结构化后训练技术,并且支持多种推理框架。