帮村里接通AI就靠它!34个地域超拟人AI智能体上线,背后技术也被我们扒出来了

西风 发自 凹非寺
量子位 | 公众号 QbitAI

各位过年回乡的友友们,第一波“AI年货”就靠你带,帮助乡里村里接通AI的重任,就靠你了!

现在,当春节出门拜年被七大姑八大姨问:有没有男/女朋友啊?

不要犹豫,请直接搬救兵,给“它”打电话~

当被问“在外面干的怎么样啊”,就说特别好。不信?搬出朋友来讲两句:

不怕大家听不懂方言,这电话能随手开启实时字幕:

另外,当你的闺蜜说春节想“年味儿游”,赶紧亮出“它”来露一手,吃喝玩乐旅游规划,可是“它”的老本行。

蚌埠住了!这样的“它”总共有34个,分别来自34个不同的省级行政区,并且都说着一口流利的当地方言

过年把“它”带回家,这AI小味儿挠一下就上来了,方言加持“老乡见老乡”格外亲,没接触过AI的亲戚朋友谁看了不迷糊啊,这下过年聊天有得聊了。

咱就是说,像这种话题是时候换换了

所以怎么玩呢?

这个年,云游34省

这其实是百度文心智能体平台为大家准备的,34个省级行政区极具地域特色的超拟人AI智能体分身大礼包。现在百度APP搜索“春节智能体”或者“AI旅游”就能玩

众所周知,今年春节是申遗成功后的第一个春节。据携程发布的《2025春节旅游市场预测报告》,今年大家春节出游意愿空前高涨。小红书等平台随便一搜,就有各种“年味儿游”攻略,还有不少人发帖求推荐。

而百度发布的“34省智能体”主打的就是当大家的旅游搭子

无论是走南还是闯北,游东还是游西,都给你配备好了一条龙服务,只需简简单单提出你的需求,他就能分分钟规划好一整套旅游攻略,各种注意细节都帮你想好了。

甚至还能帮你查到景点门票购买方式,能直接点击跳转到购买页面的那种。

不过这种图文对话并非重头戏,百度这次把智能体玩出了新高度——

点击输入框的电话按钮,就能直接和数字人智能体通话

而且这34个“导游”无论形象还是口音都极具地域特色,不出门的人用它来“”,了解各地的文化风土人情也蛮好玩。

语音通话中不仅可以选择性打开字幕,而且点击屏幕就可以打断对方讲话。

当然,你也能如开头所展示的那样,用它开发更多花式玩法。

用其它方言和它对话也行,亲测它能听懂:

如果你觉得这些还不过瘾,甚至可以自己DIY一个。

在百度文心智能体平台可以一键get同款,定制自己家乡方言的智能体或是自己感兴趣的垂类智能体。

当然,AI学会方言这种中国公司才能实现的大模型技术,背后并不简单。

揭秘方言语音背后“杀手锏”

背后藏着百度语音技术团队的两大“杀手锏”:

语音大数据挖掘技术语音合成大模型技术,共同支撑起34省带有人物画像的方言音色快速定制。

语音大数据挖掘技术,是整个语音合成大模型的基础,它先利用强大的识别大模型,对海量的语音数据进行自动化处理,包括:

  • 切分:将长语音数据切割成短片段,方便后续处理。

  • 降噪:去除语音中的杂音,提升语音质量。

  • 识别:识别语音中的文字内容,为方言合成提供语义信息。
    ……

由此,为语音合成大模型提供了大规模、高质量的方言数据支持,确保了后续方言语音合成的准确性和自然度。

此外,基于语音合成大模型的方言迁移合成技术还解决了之前合成系统存在的诸多难题——不同方言的合成模型难以通用,需要为每种方言单独开发前端,导致资源消耗大、研发周期长。

该技术巧妙地运用了大数据驱动将普通话与各种方言纳入统一建模框架之中,通过迁移学习实现了任意音色说任意方言的自然流畅转换。

也就是说,可以训练出一个能够合成多种方言语音的通用模型,大大降低了研发成本和周期。

领先技术加持,极大提高了产出效率,怪不得34个智能体齐发,说上线就上线速度这么快,不过百度的语音技术可不光是为了春节而准备。

百度语音在多领域大显身手

百度语音技术团队成立于2010年,到现在已有深厚的技术积累,其语音技术也早已落到了各行各业,遍地开花。

比如,在数字人直播场景,数字人声音合成的好坏极大依赖录音数据的质量,很多商家缺乏专业主播数据,导致定制的个性化虚拟人语音合成效果一般。

百度语音技术团队针对直播场景,搭建了专门的带货风格语音音库。

其中创新性地解决了个性化语音合成的多个痛点:

  • 突破传统录音棚限制,通过智能工牌设备自动采集真实直播数据。

  • 运用语音大模型迁移技术,精准提取优质主播韵律信息,迁移给用户音色。

  • 运用篇章段落合成技术,有效解决了传统单句合成带来的状态不连续和随机切换问题,提升整场直播的合成自然度。

  • 基于文本韵律增强技术,有效利用篇章文本,进行整体的韵律、停顿、激情状态控制,提升整场直播的拟人度和自然度。

效果那也是杠杠的,据了解,定制音库的制作成本大幅降低,仅需几分钟数据就能达到超越真人的TTS水平。

另外,在有声小说市场,百度直接搞了个全自动化生产平台,实现从画本到有声书的端到端自动生成。

包括融合了基于大语言模型的文本理解技术,实现了精准角色预测、人物画像构建、对白情感分析,搭建小说业务统一训练框架。

还有高表现力声学建模技术,支持多种情感和副语言(如大笑、冷哼等)的迁移与控制,能够生成符合语义和情感的类真人声音合成。

并且,新音色的生成过程中,用户再也不需要录制包含特定情感和副语言的数据,即可快速生成具备情感和副语言能力的角色对白库,显著降低了构建数据库的门槛。

在车载场景下,百度还将视觉信息引入语音增强,对人脸唇动特征和语音信号统一建模,大幅提升复杂场景下的语音增强的效果,彻底改变了过去单一模态的交互体验。

所以从这次的春节创意互动,到各行业的专业级应用,百度的目标也很简单,重塑智能语音技术边界,为用户带来更自然、个性化的交互体验。

这也是影响我们每一个人未来工作和生活的核心趋势。

在大模型时代,一场语音革命已经在悄然进行。如果你或者身边的人,想要更早抓住技术能做什么、会怎么样,可以从百度这份春节大礼包试玩开始。

趁着春节,用AI的方式,帮助亲朋好友都AI起来~

—  —

一键关注 👇 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

(文:量子位)

欢迎分享

发表评论