
▲左为Artificial Analysis Speech Arena榜单,右为Hugging Face TTS Arena






给智能硬件们装上“AI声带”的Speech-02模型属于TTS(文本转语音)模型。TTS模型存在多条技术路径,其中最重要的分野之一是自回归与非自回归架构的选择。
自回归(AR)模型需要逐个顺序生成输出,每一步的生成依赖之前所有步骤的输出,就像是“边想边说”。
非自回归模型并行生成所有输出,一次性生成所有语音帧,主要参考输入文本,就像是“照稿念”。
Speech-02选择的是前一条技术路线。尽管非自回归模型在推理速度上天然具备优势,但自回归模型能提供更高的准确率、相似度,总体用户体验更佳。

在自回归Transformer架构基础上,Speech-02创新性地采用了“会学习的音色提取器”,本质上是一个人声编码器(speaker encoder)能够将任意长度的音频片段转化为固定尺寸的条件向量,从而实现高质量、灵活的声音表达,这也是Speech-02“零样本”复刻人声能力的关键。
不同于其他系统使用的预训练人声编码器,Speech-02的这一模块是和语音合成模块一起训练的,因此更贴合声音合成任务的需求,能更精准捕捉音色、语调等特征,还解锁了模型自学多语言的能力。
Speech-02的另一大创新是Flow-VAE模型。许多语音模型采用的传统VAE(变分自编码器)存在“一刀切”的问题,对复杂数据的建模效果一般。
而Flow(流模型)的加入让语音模型能学会更自然、更多样的音频细节特征,提升最终的生成效果。以下方案例中的“脱口秀表演”为例,这段声音情绪饱满,起伏、变化自然,感染力较强。
MiniMax在语音模型基础架构的创新,让Speech-02拥有了实现定制化的语音交互体验的“三板斧”。
第一是情感控制,系统可使用独立训练的小型Lora模块来精确调节输出语音的情感,比如高兴或悲伤,同时保留原说话者的声音特征。
第二是文生音功能,用户可以用语言描述想要的音色特点,系统会结合结构化参数生成符合要求的语音,还可以进行情绪控制,如同用文字描述对声音进行“ps”。
第三是专业级声音参考(PVC),只需少量样本就能提取说话者的核心特征,生成高度相似的声音,且每个克隆只需存储极少数据。在智东西的实测中,下方的埃隆·马斯克声音就仅仅使用了一段20秒的音频作为参考。
语音作为人类最自然的交互方式,能显著提升AI应用的沟通效率。同时,语音承载的语调、语速等情感要素若被AI精准模拟,将使交互更生动自然,赋予机器拟人化的温度,大幅缩短人机距离感。
语音模型市场的前景十分广阔。咨询机构德勤的数据显示,受益于成熟技术、政府/资本扶持以及智能化市场需求,中国智能语音市场规模将进一步增长,预计2030年市场总规模将达到1452亿元,消费级应用场景超过710亿元,企业级场景将达到740亿规模。
已有许多企业看到了语音入口的重要价值,并开启了相关布局。OpenAI的相关技术主打上下文感知、对话交互;ElevenLabs关注拟真度与情感表达;Meta、谷歌这两家巨头则将重心放在了多语言覆盖等领域。
位居两大权威测评榜单榜首的MiniMax,则凭借Speech-02与各大语音模型玩家们正面交锋。Speech-02既具备自然流畅的对话能力,也可以表达丰富的情感,还通过架构创新实现了多语音的良好支持。
在当下语音模型的竞争格局中,MiniMax有自己独立的思考。MiniMax从最初做Talkie和星野等产品时起,就意识到让用户拥有个性化的语音体验对于智能交互的重要性。
MiniMax将语音技术对外开放,也成为了国内最早用大模型架构提供语音服务的公司。
本次Speech-02的登顶证明了MiniMax语音技术的技术领先性,而他们更是利用这一技术优势布局下游应用场景,加速产品和服务在下游市场的渗透率。
今年2月,MiniMax与多家智能硬件企业牵头成立了“MiniMax智能硬件产业创新联盟”,该联盟有望进一步扩展MiniMax语音技术在B端市场的发展前景。

以Speech-02为代表的MiniMax语音模型,有望与新硬件形态深度融合,加速催生以AI眼镜为代表的新一代智能交互设备。
从宏观角度上来看,这类新硬件形态需要便捷、个性化的语音交互体验,才能最大化其作为下一代智能终端的潜力。
而语音技术的突破,也依赖于AI眼镜等新型硬件提供的真实场景和数据反馈,从而持续优化算法与用户体验。二者相互促进,形成了技术迭代的正向循环。

展望未来,MiniMax的新一代语音技术还有可能在内容行业引发创作方式与交互体验的变革,让更多人能创造属于自己的音频与多模态内容,推动内容创作的普惠化。
例如,游戏开发者可通过语音模型,实现NPC对话的批量生成,将原本需要数月录制的语音工程缩短至数天完成,降低开发成本;或是通过对话的实时生成,提供独一无二的游戏体验。
在播客行业,新一代语音技术的突破有望拓展个人创作者的能力边界,让他们能够独立完成原本需要专业团队协作的广播剧和叙事类播客制作,大幅降低制作门槛和成本,使高质量的播客创作不再是专业工作室的专利。
同时,播客的收听体验也因语音技术迎来升级。国内头部播客平台小宇宙已经利用MiniMax的语音技术,内测了外语播客一键转中文收听功能。

(文:智东西)