豆包 App 语音通话功能重磅上线：AI 对话再进化，语音助手更懂你！

距离电影《Her》上映已经过去十年，电影中的 AI 助手与主角的对话仿佛是未来的幻想。但今天，这种充满情感的人工智能正在一步步走进我们的生活。豆包 App 最新发布了重磅更新——全新的端到端实时语音通话功能！这项功能已在 7.2.0 版本正式上线，所有用户均可免费体验。

突破性技术，语音交互更流畅

豆包的语音通话功能，采用了集语音理解和生成于一体的全新技术架构，真正实现了端到端的语音对话体验。通过原生深度融合语音与文本模态，豆包的实时语音大模型在超低延时的基础上，带来了真人级别的语音表现力、情感表达和多模态输入输出能力。这一技术突破，使得豆包的对话更加自然、流畅，AI 能够理解并回应用户的情感、语气变化，让每次对话都更加贴近真实人类的交流方式。

更令人惊喜的是，这一技术不仅仅局限于基础对话，豆包还具备了强大的多轮对话能力，可以在复杂场景中进行精准的情感理解和语义生成。无论是进行轻松的聊天，还是复杂的语音指令控制，豆包都能快速反应并精准执行。

拟人化表现，情感互动更真实

豆包最让人惊艳的地方，在于它的拟人化表现。AI 不仅能理解你说的每一句话，还能感知你的情绪。当你语气低沉时，它会用温柔的语气安慰你；当你轻松愉快时，它会活跃起来，和你一起分享欢乐。豆包的情感表达不仅限于语音的语气变化，还能通过语音的细腻调整与停顿来传递丰富的情感层次。

背后得益于豆包采用的联合建模技术，语音和语义被同时处理，使得 AI 的情感理解和语音表现都趋近于真人的自然度。情绪的表现空间、语音的细腻度以及智商的逻辑推理能力，都在不断得到提升。豆包不仅能进行高质量的对话互动，还能很好地承接并回应用户的情绪，提供更具亲和力的体验。

更智能的能力涌现，丰富的功能体验

除了基础对话，豆包的能力还远不止于此。它具备强大的角色扮演和故事讲述能力，能模拟多种角色和风格，像真人一样变换声线和语气。此外，豆包还可以根据用户的需求进行即时查询，获取天气、新闻等实时信息，让它不仅仅是一个聊天伙伴，更是一个全方位的智能助手。

值得一提的是，豆包还具备初步的唱歌功能，并且对方言和口音有着更高的理解能力，尤其适配中国用户的语言习惯。这使得它能够在多种场景下与用户进行更加真实和个性化的互动。

AI 与安全的平衡：豆包在保护用户隐私方面的创新

随着语音交互技术的不断进步，安全问题也变得愈加重要。豆包在设计语音模型时，特别注重了安全性，尤其是在语音模态引入后，如何确保 AI 助手在各种场景中都能够表达得当，避免不安全内容的出现。为了应对这一挑战，豆包在联合建模过程中，引入了多种安全机制，包括监督微调（SFT）和强化学习（RL）等方法，有效地压制和过滤潜在的非安全内容，从而降低安全风险。

豆包团队还特别进行了用户反馈和评测测试，邀请了来自全国多个城市的 27 名用户进行实际体验。通过收集超过 810 通对话数据，团队对模型进行了深度评估，确保了语音助手在各维度的表现都达到用户期望，从智商到情感，再到内容的安全性，都进行了细致优化。

写在最后

豆包的这一技术进步，代表了 AI 语音助手向更智能、更人性化方向迈出了重要一步。通过更加精准的情感识别与语音生成，豆包不仅提高了互动的流畅度，也让语音助手的表现更加贴近真实交流。未来，我们有理由相信，随着技术的进一步发展，豆包将变得更加智能和贴心，甚至能与用户产生更加深层次的情感共鸣。

作者：Fish

（文：毫河风报）