斩获全球SOTA，竞技场双榜登顶！这款国产语音模型凭什么？

MiniMax又一王牌模型Speech-02亮相。

作者 | 陈骏达

编辑 | 漠影

国产模型又斩获多项SOTA！

智东西5月16日报道，近日，上海大模型独角兽MiniMax旗下的Speech-02语音模型，在两项全球权威语音基准测评榜单中拔得头筹，力压OpenAI、AI语音明星创企ElevenLabs旗下的所有语音模型。

▲左为Artificial Analysis Speech Arena榜单，右为Hugging Face TTS Arena

Speech-02不仅在WER（字错率）、SIM（相似度）等硬性指标上实现了与真人无异、甚至更好的SOTA表现，还通过数据、架构层面的创新，实现了超强的泛化能力，支持30+种语种、不同口音、不同情绪的个性化定制。

此外，Speech-02每百万字符输出价格为50美元，价格低至ElevenLabs的1/4，实现了性能与成本的平衡，进一步加速了相关技术的商业化落地。

目前，以Speech-02为代表的多款MiniMax语音交互模型，已经收获多家行业头部企业和新锐创企的选用，商业化进展迅猛。在AI语音交互这一前景广阔的技术领域中，MiniMax已率先验证了技术到应用的高效转化路径。

01.

语音交互技术加速渗透

“MiniMax方案”广受认可

近年来，语音模型技术从实验室走向规模化应用，在语音助手、有声内容创作、智能教育等多个领域催生出一批成功案例。

观察行业头部企业的实践，我们可以发现，准确率早已不是语音技术的唯一竞争点，个性化、情感化的交互体验正成为新标准。

在教育科技领域，龙头企业高途利用新一代语音技术，打造了可定制化的AI语言陪练系统“吴彦祖24小时伴学”，使“AI阿祖”成为现象级教育IP，验证了AI语音在教育场景的落地潜力。

无独有偶，国内老牌数字阅读企业阅文旗下的起点读书，选择在在有声书场景打造定制化音色，并取得了用户的广泛好评。

值得注意的是，这些领军企业在突破语音交互技术瓶颈时，都不约而同地选择了同一家技术伙伴——MiniMax，并由此取得了显著成效。

MiniMax语音技术不仅仅局限于上述相对成熟的场景，还赋能了众多创新企业，通过定制化解决方案，帮助中小团队快速实现语音交互产品的商业化落地。

今年年初，在有“消费电子风向标”之称的CES展会上，一大批新锐创企打造的陪伴类AI硬件迎来泼天流量，其中，跃然创新推出的AI语音挂件BubblePal爆火出圈。

通过接入MiniMax的语音模型，这一小挂件能使普通毛绒玩具具备自然对话能力，还可以根据儿童喜欢的卡通人物复刻音色，高度还原角色音色，让孩子与卡通人物沉浸对话。

蝉魔方数据显示，在发布后的短短半年间，BubblePal的销量在2.5-5万之间，总销售额超过1000万元。截至25年3月，该产品在抖音单平台的销售额已经超过2000万元。

爱小伴AI玩伴机器人同样在CES大会上亮相。通过MiniMax的语音生成技术，爱小伴打造了“会说话的AI奶龙”，精准还原了国民IP“奶龙”的标志性声线，不仅能与用户进行生动互动交流，还能声情并茂地讲述故事，真正实现“寓教于陪”的创新体验。

MiniMax语音技术支撑BubblePal、AI奶龙们实现高度拟人化、千人千面的制胜策略。该技术不仅适用于陪伴类AI硬件，也能在AI教育硬件、智能座舱等更广阔的硬件类型上获得成功。

这类具备强交互、定制化体验的AI硬件，切中了消费者对于智能交互类产品日益增长的需求。

已有11年AI教育行业经验的听力熊团队，选择在其AI教育硬件上接入MiniMax语音模型能力。在基础的语音交互和知识问答之外，MiniMax语音模型可以给用户适当的反馈与情感表达，从而丰富学习互动体验。

智能座舱作为未来汽车交互的核心场景，对高拟真和低延迟提出了严格要求，以满足用户对沉浸式体验和实时反馈的需求。北汽集团极狐汽车已在其座舱中搭载了多款MiniMax大模型，给用户提供及时响应的问答。

从有声书到AI教育，再到智能硬件，MiniMax究竟凭借什么取得行业头部企业和新锐创企等B端客户的青睐？在MiniMax今年5月发布的Speech-02模型技术报告中，我们或许能找到答案。

02.

技术报告全公开

Speech-02靠什么取胜？

给智能硬件们装上“AI声带”的Speech-02模型属于TTS（文本转语音）模型。TTS模型存在多条技术路径，其中最重要的分野之一是自回归与非自回归架构的选择。

自回归（AR）模型需要逐个顺序生成输出，每一步的生成依赖之前所有步骤的输出，就像是“边想边说”。

非自回归模型并行生成所有输出，一次性生成所有语音帧，主要参考输入文本，就像是“照稿念”。

Speech-02选择的是前一条技术路线。尽管非自回归模型在推理速度上天然具备优势，但自回归模型能提供更高的准确率、相似度，总体用户体验更佳。

在自回归Transformer架构基础上，Speech-02创新性地采用了“会学习的音色提取器”，本质上是一个人声编码器（speaker encoder）能够将任意长度的音频片段转化为固定尺寸的条件向量，从而实现高质量、灵活的声音表达，这也是Speech-02“零样本”复刻人声能力的关键。

不同于其他系统使用的预训练人声编码器，Speech-02的这一模块是和语音合成模块一起训练的，因此更贴合声音合成任务的需求，能更精准捕捉音色、语调等特征，还解锁了模型自学多语言的能力。

原文：你们有没有过那种 momento en que 简单的快乐让你觉得 la vida es bella？对了，我昨天看了一部电影，里面说 “el destino no es una cuestión de casualidad” —— 命运不是偶然的问题。这让我 pensare molto 关于我们每天做的选择。

对应翻译：你有没有过那样一个瞬间，简单的快乐让你觉得生活多美好？对了，我昨天看了一部电影，里面说 “命运不是偶然的问题”，这让我不禁思考我们每天做的选择。

Speech-02的另一大创新是Flow-VAE模型。许多语音模型采用的传统VAE（变分自编码器）存在“一刀切”的问题，对复杂数据的建模效果一般。

而Flow（流模型）的加入让语音模型能学会更自然、更多样的音频细节特征，提升最终的生成效果。以下方案例中的“脱口秀表演”为例，这段声音情绪饱满，起伏、变化自然，感染力较强。

MiniMax在语音模型基础架构的创新，让Speech-02拥有了实现定制化的语音交互体验的“三板斧”。

第一是情感控制，系统可使用独立训练的小型Lora模块来精确调节输出语音的情感，比如高兴或悲伤，同时保留原说话者的声音特征。

第二是文生音功能，用户可以用语言描述想要的音色特点，系统会结合结构化参数生成符合要求的语音，还可以进行情绪控制，如同用文字描述对声音进行“ps”。

第三是专业级声音参考（PVC），只需少量样本就能提取说话者的核心特征，生成高度相似的声音，且每个克隆只需存储极少数据。在智东西的实测中，下方的埃隆·马斯克声音就仅仅使用了一段20秒的音频作为参考。

03.

AI语音赛道卷出新高度

或开启硬件与内容革命

语音作为人类最自然的交互方式，能显著提升AI应用的沟通效率。同时，语音承载的语调、语速等情感要素若被AI精准模拟，将使交互更生动自然，赋予机器拟人化的温度，大幅缩短人机距离感。

语音模型市场的前景十分广阔。咨询机构德勤的数据显示，受益于成熟技术、政府/资本扶持以及智能化市场需求，中国智能语音市场规模将进一步增长，预计2030年市场总规模将达到1452亿元，消费级应用场景超过710亿元，企业级场景将达到740亿规模。

已有许多企业看到了语音入口的重要价值，并开启了相关布局。OpenAI的相关技术主打上下文感知、对话交互；ElevenLabs关注拟真度与情感表达；Meta、谷歌这两家巨头则将重心放在了多语言覆盖等领域。

位居两大权威测评榜单榜首的MiniMax，则凭借Speech-02与各大语音模型玩家们正面交锋。Speech-02既具备自然流畅的对话能力，也可以表达丰富的情感，还通过架构创新实现了多语音的良好支持。

在当下语音模型的竞争格局中，MiniMax有自己独立的思考。MiniMax从最初做Talkie和星野等产品时起，就意识到让用户拥有个性化的语音体验对于智能交互的重要性。

MiniMax将语音技术对外开放，也成为了国内最早用大模型架构提供语音服务的公司。

本次Speech-02的登顶证明了MiniMax语音技术的技术领先性，而他们更是利用这一技术优势布局下游应用场景，加速产品和服务在下游市场的渗透率。

今年2月，MiniMax与多家智能硬件企业牵头成立了“MiniMax智能硬件产业创新联盟”，该联盟有望进一步扩展MiniMax语音技术在B端市场的发展前景。

以Speech-02为代表的MiniMax语音模型，有望与新硬件形态深度融合，加速催生以AI眼镜为代表的新一代智能交互设备。

从宏观角度上来看，这类新硬件形态需要便捷、个性化的语音交互体验，才能最大化其作为下一代智能终端的潜力。

而语音技术的突破，也依赖于AI眼镜等新型硬件提供的真实场景和数据反馈，从而持续优化算法与用户体验。二者相互促进，形成了技术迭代的正向循环。

展望未来，MiniMax的新一代语音技术还有可能在内容行业引发创作方式与交互体验的变革，让更多人能创造属于自己的音频与多模态内容，推动内容创作的普惠化。

例如，游戏开发者可通过语音模型，实现NPC对话的批量生成，将原本需要数月录制的语音工程缩短至数天完成，降低开发成本；或是通过对话的实时生成，提供独一无二的游戏体验。

在播客行业，新一代语音技术的突破有望拓展个人创作者的能力边界，让他们能够独立完成原本需要专业团队协作的广播剧和叙事类播客制作，大幅降低制作门槛和成本，使高质量的播客创作不再是专业工作室的专利。

同时，播客的收听体验也因语音技术迎来升级。国内头部播客平台小宇宙已经利用MiniMax的语音技术，内测了外语播客一键转中文收听功能。

04.

结语：个性化语音交互鸣枪起跑

MiniMax抢占领先身位

未来，随着AI Agent和多模态交互的爆发，高度个性化、拟人化，具备强大情感表现力的语音技术，将成为突破用户体验的关键。

凭借长期的技术积累和Speech-02这一SOTA级模型的发布，MiniMax已在这一赛道上占据了领先身位。

（

（文：智东西）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复