豆包App灰度最新语音模式,实现了GPT-4o不会的唱歌

语音通话功能的提升,让AI落地的场景不止教培和客服。
周鑫雨
编辑苏建勋
2025年,豆包的第一更,放在了语音通话功能上。

2025年1月20日,豆包发布了最新的“端到端”语音大模型,并基于该模型更新豆包APP的实时语音通话功能。

此前,豆包语音通话功能采用的是ASR(自动语音识别)+LLM(大语言模型)+TTS(文生音频)的级联方案。如今更新的端到端语音大模型,是将语音识别、理解和生成,都放在同一个模型中解决。

据《智能涌现》测试,更新语音模型后的豆包,最大的亮点在于,豆包在语音交互时,把类似人类的表达形式和情感输出,复刻了出来。与此同时,新版本的对话流畅度和智商情商,也有大幅提升。

比如,豆包上新的“灵魂歌手”和“百变大咖”等语音通话模式,比GPT-4o还抢先一步,实现了唱歌和角色扮演。

△豆包更新的语音通话模式。

豆包学会了唱歌,和角色扮演

豆包一个大变化,是把语音的角色扮演能力,拓展到了明星、书中和影视中的角色。这一功能,也体现在了豆包语音通话的“百变大咖”模式中。

比如当作者提出“模仿虞书欣的声音说话,并且说一段新年祝福”,豆包一句“哼,我才不要模仿她呢!我就是我,不一样的烟火”,就把“小作精”的劲儿还原出来了。

而且豆包的上下文记忆能力也相当不错。当我在同一段对话中尝试了宋丹丹、林黛玉、甄嬛等角色,再次要求豆包模仿虞书欣时,它立马委屈上了:“怎么又让我模仿她呀?”

当下,市面上多数语音模型的歌曲创作,还需要用户输入较为专业的文字Prompt,或者需要先基于用户输入的文字音频,进行谱曲,无法在自然的语音交互中,做到“张口就来”。

豆包这次上线的“灵魂歌手”模式,就能让豆包在聊天中,随口把歌唱了。

比如让豆包唱一首节奏欢快的歌,它张口就来了一曲Taylor Swift的《Love Story》,不过缺点是把歌名说成了“Lose Control”,以及音准确实也有些“Lose Control”。

除此之外,歌曲创作能力,豆包也有了。比如和豆包说“给我唱一首歌,歌词里面要有‘年终奖多多’”,它立刻表演了一首。虽然歌词比较口水,但响应速度很是优秀。

从角色演绎和唱歌的能力就能感受到,豆包的拟人能力、交互自然程度以及情绪表达水平,已经是next level。

比如让豆包讲个鬼故事,它能根据情节切换语气,非常有氛围感。

这次豆包又上线了两种人格模式:“受气小包”和“夸夸大师”。

所谓的“受气小包”,官方说法是可以让豆包呈现委屈巴巴的状态。但我们聊下来的感受是,“受气小包”更准确的说法应该是“绿茶小包”。

不过难得的是,不管接受任何指令,“受气小包”都能维持“委屈”的人设。比如让“受气小包”阴阳怪气一些,最阴阳的版本,还是散发着茶香:

“哟,我可不敢呐,你可是主子,我不过是个任您使唤的小可怜,哪敢有什么别的想法呀!”

相比于8月发布的出版语音通话功能,能明显感受到,豆包的情绪感知能力也更强了。通过一个“啊哈”,它就能感知到用户欢快的情绪。

当然,豆包的情绪表达上,也变得更像人。用“猜性别”来逗豆包,有一种和真实网友开玩笑的感觉。

搞定语音交互,拟人赛道的入场券

2024年5月,自OpenAI旗下GPT-4o发布以来的很长一段时间里,市面上大多AI语音通话功能,采用的都是ASR(自动语音识别)+LLM(大语言模型)+TTS(文生音频)的级联方案。

比如初代豆包的语音通话功能,就集成了语音识别模型Seed-ASR、语音合成模型Seed-TTS,以及整合了RTC(实时音视频)技术,来实现对话情境下AI的实时交互。

但集成多个模型的级联方案,劣势在于AI的交互,很大程度上还不够像人一样自然。在“语音转文字再转语音” 的过程中,难免出现信息的损耗。

这也导致,传统的语音交互模式在落地场景上有一定的局限性。行业对于AI语音交互的落地,局限在教育、客服等高专业度、低拟人度的场景中。

不过,端到端方案正在逐渐成为主流。比如智谱在2024年10月发布的GLM-4-Voice,以及面壁智能在2025年1月15日发布的“端侧GPT-4o”MiniCPM-o 2.6,就采用了端到端的模型方案,在一个模型里同时完成视觉的理解,以及语音的理解和生成。

据《智能涌现》了解,这次豆包语音通话功能的更新,主要是由于底层模型技术,从原有多个多模态模型合作的级联方案,改成了直接从“理解语音到生成语音”的端到端方案,因此在降低延时、自然度、情感表达等方面,都有了明显的提升,并且还能输出歌曲。

而语音能力的提升,也会将AI落地的空间,从教培、客服等专业领域,扩展到情感陪伴、心理咨询、配音等更广阔的场景中。

尤其是AI情感陪伴、角色扮演领域,在当下已经展现出强大的吸金能力。

比如,最近一款主打AI偶像扮演的App“Lovey Dovey”,迅速冲上韩区iOS评分第一,深受追星族的追捧。“六小虎”MiniMax旗下的角色扮演应用Talkie,根据点点数据,拥有576万月活用户。

在语音层面对角色扮演、情绪感知和表达能力的提升,则是丰富AI与人交互形式、提升沉浸感的关键一环。情感交互能开拓的市场空间,也逼迫着技术朝着“拟人”的方向更近一步。

封面来源视觉中国
👇🏻 AI👇🏻

36AI
👇🏻  👇🏻

(文:智能涌现)

欢迎分享

发表评论