Gemini 从一开始就为多模态而构建,能够原生理解和生成文本、图像、音频、视频和代码等多类型内容。在 I/O 大会上,展示了 Gemini 2.5 在 AI 驱动的音频对话和生成方面的新能力,这标志着一个重要的进步。

目前,这些模型已经被用于在全球范围内为用户提供音频服务,涵盖众多产品、原型和语言。NotebookLM 的音频概览和 Project Astra 只是其中的两个例子。以下是对 Gemini 2.5 原生音频能力的深入探讨。
今年的谷歌I/O大会发布了Voe等里程碑式的生成AI产品,请看我们往期的报道:
谷歌发布 Veo 3 将AI视频的音频生成水平提升到近专业高度

实时音频对话

人类对话丰富而细腻,其含义不仅取决于所说的内容,还取决于说话的方式——包括语调、口音甚至非语言的声音表达,如笑声。相信对话将成为与 AI 交互的关键方式。这就是为什么 Gemini 能够以音频形式原生地推理和生成语音,从而实现有效的实时沟通。
Gemini 2.5 闪现预览版的原生音频对话功能包括:
-
自然对话:
提供质量卓越、更具表现力且韵律自然(节奏模式)的语音互动,低延迟确保对话流畅。
-
风格控制:
通过自然语言提示,可调整对话中的表达方式,引导其采用特定口音、产生多种语调和表情,甚至低语。
-
工具集成:
Gemini 2.5 可在对话中使用工具和函数调用。这使其能够整合来自谷歌搜索等来源的实时信息,或使用开发者自定义的工具,使对话更具实用性。
-
对话上下文感知(主动音频):
系统经过训练,能够识别并忽略背景语音、周围对话和其他无关音频,在适当的时候做出回应。简而言之,它知道何时不该说话。
-
音视频理解:
凭借对流式音频和视频的原生支持,Gemini 2.5 可以就视频流或屏幕共享中看到的内容与用户对话。
-
多语言性:
使用支持的 24 种以上语言进行对话,甚至在同一个短语中轻松混用语言。
-
情感对话:
Gemini 2.5 能够根据用户的语调做出回应,认识到相同的词语以不同的语调说出会导致截然不同的对话。
-
高级推理对话:
Gemini 的推理能力能够提升其对话质量,从而在所有功能中实现更好的整体性能。这使得对话更加连贯和智能,尤其是在复杂的推理任务中。

可控的文字转语音(TTS):


文字转语音技术正在迅速发展,借助最新的模型,不仅追求自然度,还为生成的音频提供了前所未有的控制能力。现在可以生成从简短片段到长篇叙述的各种内容,精确地规定风格、语调、情感表达和表演——所有这些都可以通过自然语言提示来调整。
-
多说话者文字转语音演示:
该模型可以从文本输入生成两人对话式的“NotebookLM 风格”音频概览,通过对话使内容更具吸引力。
-
多语言性:
借助 Gemini 2.5,轻松创建多语言音频内容,支持 24 种以上语言。
-
动态表现:
这些模型可以为从诗歌到新闻广播再到引人入胜的故事讲述等各种内容带来生动的表达。它们还可以按要求以特定情感进行表演并产生口音。
-
增强的语速和发音控制:
控制语速并确保发音更准确,包括特定单词的发音。
-
多说话者对话生成:
该模型可以从文本输入生成两人对话式的“NotebookLM 风格”音频概览,通过对话使内容更具吸引力。
-
多语言性:
借助 Gemini 2.5,轻松创建多语言音频内容,支持 24 种以上语言。
对于可控语音生成(TTS),可以选择 Gemini 2.5 Pro 预览版以在复杂提示下获得最先进的质量,或者选择 Gemini 2.5 闪现预览版以实现日常应用的成本效益。这使得开发者能够为公告、故事、播客、视频游戏等动态创建音频。

安全与责任

在开发这些原生音频功能的每个阶段都积极评估潜在风险,并利用所学到的知识来制定缓解策略。通过严格的内部和外部安全评估来验证这些措施,包括全面的红队测试,以实现负责任的部署。此外,所有模型输出音频都嵌入了 SynthID,这是水印技术,通过使 AI 生成的音频可识别,确保透明度。

开发者的原生音频功能

为 Gemini 2.5 模型带来了原生音频输出,通过 Google AI Studio 或 Vertex AI 中的 Gemini API,开发者可以构建更丰富、更具交互性的应用程序。

开发者可以在 Google AI Studio 的流式标签中尝试 Gemini 2.5 闪现预览版的原生音频对话。可控语音生成(TTS)目前在 Google AI Studio 的生成媒体标签中提供预览,选择语音生成即可使用,适用于 Gemini 2.5 Pro 和闪现版。
(文:AI音频时代)