谷歌发布 Veo 3 将AI视频的音频生成水平提升到近专业高度

Veo 3

Google I/O大会 2025

在上周的Google I/O 2025 开发者大会上，谷歌宣布了新一代的AI视频生成模型 Veo 3，当然毫无意外的，这是其DeepMind迄今最先进的视频生成 AI 模型，但这次特别强调在音频方面前所未有的突破，首个能够生成带声音的视频模型，在视频生成的同时能够完整生成音效、环境声和对话语音等声音内容，为生成创建的视频片段进行全面的“声音制作”，让我们来看看。

目前，Veo 3模型仅在 Gemini 应用中为美国 Gemini Ultra 订阅者和 Vertex AI 的企业用户提供服务。

虽然音效生成的 AI 模型以并非新事物，但 Veo 3 正是有了更强大的将音频与视觉内容精确匹配的能力，这点让它脱颖而出。

在当下，辨别视频是否为 AI 制作其实相对容易。通常，唇部的动作和对白会比演员的面部表情延迟，而Veo 3 比起其他视频生成音频的 AI 工具不同，Veo 3 在现实世界物理和口型同步方面表现出色，几乎没有延迟，同时Veo 3 能够分析原始视频像素以自动同步音频，以及通过同一个视频生成提示词中的音频表述来生成同步的音频，在竞争激烈的AGI视频生成平台领域中提供了显著优势。

请看下面这几个官方样例视频，以及我们的专家评论：

FilmSound.cn专家评论：这段视频的声音整体还是不错的，口型同步比起其它模型前进了一大步，背景的大海声比较吻合，但比起画面中海浪的起伏似乎声音弱了一些，可以将频响再低沉一点，AI甚至还单独给出了一个浪花声音，应该是提示词中的设置，比较大的问题是老人胳膊的动作没有匹配声音，浪花声听着也有些突兀。

FilmSound.cn专家评论：一开始就能听到房间音（房间环境），很棒！这段生成的人声语气比较符合人物的情绪，证明了谷歌在生成语言领域的领先地位

FilmSound.cn专家评论：类似车站的背景声匹配较好，对白的情感比较匹配，那种AI的语音生硬感减少了，不知是否是巧合。另外，上面这三段的生成语音都较符合所处的空间，也就是自生混响，虽然我们在网上搜了很多内容并没有发现相关的报道，但从这几段视频来看， Veo 3应该是对生成语音进行了混响的匹配。

谷歌同时给出了几个提示词的案例，有的视频对音频提示非常详细，这些短视频的声音已经基本达到一个专业短片声音制作的要求，非常有必要看一下：

提示词：A breathtaking, painterly 2D animated continuous visual narrative, rendered with the lush,……，（很长，这里我们略过）结尾时有关声音的提示词：The only implied sounds are the gentle rustling of leaves, the distant calls of unseen forest birds, the girl’s soft, respectful breathing, the Spirit’s deep, resonant, almost inaudible hum, and a soaring, emotionally resonant, orchestral score.（声音仅有树叶的轻柔沙沙声、远处未见森林鸟类的鸣叫、女孩轻柔而尊重的呼吸、灵体深沉、共鸣、几乎听不见的低鸣，以及高亢、富有情感共鸣的交响乐。）

这项进展建立在 DeepMind 在“视频转音频”人工智能方面的早期工作基础上，一些人认为可能依赖于旗下 YouTube 的训练数据，尽管谷歌尚未证实这一点，不过显然其对此训练的数据非常庞大且有专业人士参与指导。

同时，谷歌也在Google I/O 2025 开发者大会上宣布推出基于Veo 3的全新影片创作工具Flow，以及新一代Imagen 4图片创作工具等。

Flow 是围绕 Veo 3 、Imagen 4及Gemini 构建的新创意工具集，它将视频生成、图像合成和自然语言理解集成在一个界面中。Flow 旨在帮助用户从零开始构建整个“电影”场景，进行优化，并在不离开平台的情况下管理资源。

可以上传自己的参考图片，或者首先用提示词生成一张满意的图片，再在此基础上生成及制作视频并生成音频。

Flow 的关键特性

SceneBuilder，允许在保持外观和节奏一致的情况下编辑和扩展场景
用于改变镜头构图、镜头类型和运动的相机工具
用于组织角色、环境和提示的资产库
Flow TV，一个精选的 AI 生成视频和教程流。

Flow 更侧重于构建世界的模拟，而非拍摄世界，它操作简便、快速且极其灵活。

Veo 3 和 Flow 并非噱头，它们更接近真正有效的工具，能制作出看起来和听起来都像是真实场景，非常接近由真实人类团队制作出来的媒体内容，这使它们成为强大的工具，然而，对于AIGC是否能适合这样艺术形式，目前仍然是一个悬而未决的问题。

谷歌也发布了一个听起来非常惊艳，并且有强声音设计/音效设计的短片，谷歌是这样介绍的：Junie Lau （茱莉·劳）是一位充满创新热情的电影导演和跨学科创作者，她将人工智能视为拓展创意表达边界的关键合作者。她的作品深入探索超现代时代中的艺术叙事，包括虚拟身份、数字人文和数字本体等主题。茱莉正在创作一部名为《浮生若梦》的AI电影，该片探索了祖母与孙辈之间跨越无数平行世界的无限且永恒的宇宙之爱。

看到这个短片，你是否对 Veo 3的音频效果感到震惊，如果这些声音内容都是由AI生成的话，恐怕大部分声音人的工作将迎来真正严峻的挑战。但也有人指出：它并没有带来任何的的创新包括声音方面，艺术家、剪辑师和音频制作团队已经制作出这样的工作几十年了，现在它只是更快、更低成本的完成。

正如谷歌所说：“人工智能正开启创意与电影制作的新篇章，虽然目前还处于早期阶段，但我们看到像 Flow 这样的工具具有巨大的潜力，能够发掘新的声音和创作。”

这回真的需要担心像 Veo 3 这样的工具可能会取代无数的影视和动画工作岗位了。最近的一项研究预测，到 2026 年，人工智能将影响电影和动画领域的超过 10 万个职位，而且音频人面临的恐怕比起其它类别更加艰难。

欢迎文末留言讨论！

（文：AI音频时代）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Flow 的关键特性

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复