声音比真人还像真人的Maya,背后模型开源了!跨越语音恐怖谷

机器之心报道
机器之心编辑部
语音恐怖谷是指在语音合成技术中,当 AI 合成语音接近人类的真实语音,但又存在细微的不自然或不完美之处时,会引发人类的不适感。
在 AI 这条赛道上,语音助手也是大家重点发力的领域。
你可能已经和 OpenAI 版《Her》展开过对话,也可能询问过其他语音助手一些问题。它们都有各自的优缺点,有选择困难症的小伙伴可能犯难了,到底该选择哪一款呢?
其实,在和语音助手交谈的时候,除了对话流畅,声音的微妙表达如情绪、停顿、安慰都是不能少的。
但当今 AI 语音助手虽然接近人类但仍有机械感或情感表达不自然的时候,用户可能会感到怪异,甚至比完全机械化的语音更难以接受。这种现象被称为语音恐怖谷效应,是当前语音合成技术需要克服的挑战之一。
AI 公司 Sesame 发布的逼真语音助手 Maya,通过情感智能、上下文记忆和高保真语音生成技术,成功跨越了语音恐怖谷,使语音交互更加自然、情感丰富。
Sesame 官方博客中正式写道他们的研究跨越恐怖谷效应,来源:https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice
在下面演示的这段对话中,你就像和朋友聊天一样,聊上十几分钟都没问题,Maya 的语气很随和,它会打断别人的话,你也可以随时打断它的话,甚至你还能听到对话时的呼吸声。
来源:https://x.com/tanvitabs/status/1895842394928791888
现在,Sesame 开源了驱动 Maya 的基础模型 CSM-1B(Conversational Speech Model)。
  • 项目地址:https://github.com/SesameAILabs/csm

  • huggingface 地址:https://huggingface.co/spaces/sesame/csm-1b

该模型拥有 10 亿参数规模,并且采用了 Apache 2.0 许可证,这意味着它可以在几乎没有限制的情况下用于商业用途。CSM-1B 可以从文本和音频输入中生成「RVQ 音频编码」。
可能大家都很好奇什么是 RVQ(Residual Vector Quantization),简单来讲就是一种将音频编码为离散 token 的技术。这种技术已经被应用于多种 AI 音频研究中,包括各种大厂都在采用,如 Google 的 SoundStream(一款用于收听播客、有声读物和广播节目的应用程序)和 Meta 的 Encodec。
CSM-1B 使用了 Meta 研发的 Llama 系列模型作为其骨干架构,并搭配了一个音频解码器组件。
Sesame 表示,Maya 的精细微调版本正是基于 CSM。Sesame 还提到:在 Hugging Face 和 GitHub 上开源的模型是一个基础生成模型,能够产生多种声音,但尚未针对任何特定声音进行精细微调…… 该模型因训练数据中的数据污染,对非英语语言有一定的能力,但表现可能不佳。
目前尚不清楚 Sesame 用于训练 CSM-1B 的数据来源,该公司并未透露相关信息。
值得注意的是,该模型实际上没有任何真正的安全防护措施。Sesame 采用的是一种诚信系统,仅仅是敦促开发者和用户不要在未经他人同意的情况下使用该模型模仿别人的声音,不要创建误导性内容如假新闻,或从事有害或恶意活动。
《消费者报告》最近发出警告,指出市场上众多流行的 AI 语音克隆工具缺乏有效的防范措施来预防欺诈和滥用行为。
公司介绍
Sesame 由 Brendan Iribe(Oculus 联合创始人兼前 CEO)、Ankit Kumar(前 Ubiquity6 首席技术官兼联合创始人)、Ryan Brown(前 Meta Reality Labs 研究工程总监)等创意人才领导。
Sesame 已从 Andreessen Horowitz、Spark Capital 和 Matrix Partners 等投资机构获得融资,但具体金额未对外公布。
Sesame 专注于开发自然对话的语音伙伴及相关设备。公司采用跨学科方法,结合硬件、软件和机器学习技术,确保语音界面既实用又令人愉悦。其研究团队在语音生成、个性化建模和多模态技术领域积极创新,并依托大规模 GPU 集群和专业训练评估体系支持研发工作。
该公司除了开发语音助手技术外,还在研发可全天佩戴的 AI 眼镜原型,这些眼镜将搭载公司自主开发的定制模型。

(文:机器之心)

欢迎分享

发表评论