使用 Gemini 2.5 进行高级音频对话和生成

Gemini 从一开始就为多模态而构建，能够原生理解和生成文本、图像、音频、视频和代码等多类型内容。在 I/O 大会上，展示了 Gemini 2.5 在 AI 驱动的音频对话和生成方面的新能力，这标志着一个重要的进步。

目前，这些模型已经被用于在全球范围内为用户提供音频服务，涵盖众多产品、原型和语言。NotebookLM 的音频概览和 Project Astra 只是其中的两个例子。以下是对 Gemini 2.5 原生音频能力的深入探讨。

今年的谷歌I/O大会发布了Voe等里程碑式的生成AI产品，请看我们往期的报道：

谷歌发布 Veo 3 将AI视频的音频生成水平提升到近专业高度

实时音频对话

人类对话丰富而细腻，其含义不仅取决于所说的内容，还取决于说话的方式——包括语调、口音甚至非语言的声音表达，如笑声。相信对话将成为与 AI 交互的关键方式。这就是为什么 Gemini 能够以音频形式原生地推理和生成语音，从而实现有效的实时沟通。

Gemini 2.5 闪现预览版的原生音频对话功能包括：

可控的文字转语音（TTS）：

文字转语音技术正在迅速发展，借助最新的模型，不仅追求自然度，还为生成的音频提供了前所未有的控制能力。现在可以生成从简短片段到长篇叙述的各种内容，精确地规定风格、语调、情感表达和表演——所有这些都可以通过自然语言提示来调整。

对于可控语音生成（TTS），可以选择 Gemini 2.5 Pro 预览版以在复杂提示下获得最先进的质量，或者选择 Gemini 2.5 闪现预览版以实现日常应用的成本效益。这使得开发者能够为公告、故事、播客、视频游戏等动态创建音频。

安全与责任

在开发这些原生音频功能的每个阶段都积极评估潜在风险，并利用所学到的知识来制定缓解策略。通过严格的内部和外部安全评估来验证这些措施，包括全面的红队测试，以实现负责任的部署。此外，所有模型输出音频都嵌入了 SynthID，这是水印技术，通过使 AI 生成的音频可识别，确保透明度。

开发者的原生音频功能

为 Gemini 2.5 模型带来了原生音频输出，通过 Google AI Studio 或 Vertex AI 中的 Gemini API，开发者可以构建更丰富、更具交互性的应用程序。

开发者可以在 Google AI Studio 的流式标签中尝试 Gemini 2.5 闪现预览版的原生音频对话。可控语音生成（TTS）目前在 Google AI Studio 的生成媒体标签中提供预览，选择语音生成即可使用，适用于 Gemini 2.5 Pro 和闪现版。

（文：AI音频时代）