
DeepSeek掀起推理模型热潮近半年之后,MiniMax于6月17日发布并开源其首款推理模型M1。按照官方说法,M1一项显著优势是支持目前业内最高的100万Token的上下文输入长度——为DeepSeek R1的8倍,以及业内最长的8万Token的推理输出。
据MiniMax解释,这主要得益于模型架构的创新。技术报告显示,M1模型采用了混合专家(Mixture-of-Experts, MoE)架构,并结合了一种新型的“闪电注意力”(Lightning Attention)机制。
MoE架构类似于“专家咨询小组”,当用户有问题输入,模型会“邀请”(激活)最适合的几个专家参与“讨论”(推理输出),从而节省资源。而“闪电注意力”机制意在突破transformer传统架构记忆瓶颈,优化长文本推理时对计算资源的利用效率,提升长文本处理能力。技术报告显示,“闪电注意力”机制驱动下,生成10万token时,M1所需推理算力仅为DeepSeek R1 的25%。
长文本处理能力对AI智能体的发展至关重要,可增强智能体的长期记忆力,实现多步骤操作。MiniMax此前提到,不管是单Agent的系统需要持续的记忆,还是多Agent的系统中Agent之间大量的相互通信,都需要越来越长的上下文。
基于架构等技术上的创新,MiniMax透露,M1模型的整个强化学习训练阶段,仅在512张英伟达H800 GPU上用时三周完成,租赁成本仅为53.47万美元(约为384万元人民币)。
MiniMax表示,因为相对高效的训练和推理算力使用,公司以业内最低的价格在官网提供M1模型的API服务。具体而言,在0-32k的输入长度的时候,输入0.8元/百万token,输出8元/百万token;在32k-128k的输入长度的时候,输入1.2元/百万token,输出16元/百万token;在最长的128k-1M 的输入长度的时候,输入2.4元/百万token,输出24元/百万token。
记者注意到,MiniMax采取的“区间定价”的策略,和近期豆包大模型1.6的做法类似。豆包将价格区间为0-32k、32K-128K与128K-256K。256K即为豆包大模型1.6支持的最大上下文长度。此外,MiniMax三个区间的价格和豆包大模型1.6的价格完全一致。
火山引擎总裁谭待6月11日公开解释说,一些模型厂商会根据是否启用深度思考或多模态功能来差异化定价。然而,对于同结构、同参数的模型而言,真正影响成本的关键因素并不是这些功能,而是上下文窗口的长度——成本随长度增加而递增。实践中,企业的大部分模型调用,其输入长度范围都在32K以内。
谭待认为,区间定价的新模式,能够让多模态深度思考模型得到更广泛的调用,从而加速AI智能体的大规模应用。这是因为,Agent执行任务的Token消耗量大,降低Token成本尤为关键。
值得一提的是,MiniMax在B端上走纯API的商业模式,不会像另一家大模型头部公司智谱那样提供定制化服务。
MiniMax内部模型团队大致分为文本模型、视觉模型(视频图像模型)和语音模型三大板块,每一模型类别下目前均有对应的C端产品。
除了此次发布的推理模型M1,MiniMax预告接下来连续四个工作日会有其他更新。据记者了解,其他更新与MiniMax的语音、视频等模型相关。
(文:AI前哨站)