练习时长两年半,谷歌Veo 3刷屏,我们花900元做了一条AI“猫片”


作者 | 阿虎 石濑
编辑 | 张洁


又到谷歌刷屏时。


如果以2022年末为这波生成式AI浪潮的开端粗略算起,过去两年半,谷歌一直被OpenAI压制、还被调侃是“AI界汪峰”。


但这一次,谷歌好像出息了。


今天凌晨,谷歌在2025年I/O大会上一口气更新和发布了十多款新产品和功能,涵盖了基础模型Gemini 2.5 pro、AI搜索(AI Mode)、硬件(谷歌眼镜)、Agent等等。



更新后的Gemini 2.5 Flash胜在更强大的推理能力和响应速度,AI Mode支持连续对话和查询,图片模型Imagen 4则是为了对标GPT-4o生图功能。


其中最引人注目也是讨论度最高的,则是最新的AI视频模型Veo3及其配套的AI视频创作平台Flow


Flow平台主打“视频编辑与剪辑”搭载了谷歌最新的基础模型Gemini、Imagen4以及视频生成模型Veo 3。


而Veo 3最大的亮点在于支持原生音频同步,能够一键生成人物对白、音效、环境音同步的有声视频,且效果自然逼真


DeepMind创始人Demis Hassabis在现场直接放话Veo 3结束了视频生成的无声时代”以往“图生视频”为主的AI视频制作工作流,以后从画面到口型再到场景音效,都可以承包给Veo 3。


官方Demo


Veo 3上线后,不少X平台创作者们发布了“我的第一个Veo 3视频”:


不同场景、不同人物、说着同样一句“We  Can Talk”,你以为是真实电影混剪,实际上是AI一键生成的视频片段组合。



发布以上这条推文的X博主,花2小时用Veo 3制作了这条视频,目前浏览量已破47万,很多网友都不敢相信这是AI生成的,纷纷留言“这不是真的”“这很吓人”“没有想到来得这么快”。




以往要通过复杂工作流制作的小猫拟人播客视频,也能用Veo3文生视频一键直出。



涉及复杂对话的双人出镜街采视频,不仅视频画面几乎看不出来瑕疵,人物对话时的表情、动作甚至背景环境变化,都仿佛是真实实拍的素材。


提示词:一位奥运滑板运动员脖子上挂着金牌接受记者采访。记者问“你接下来要做什么?”滑板运动员说“我要去旧金山卖企业软件!”


Prompt: olympic skateboarder being interviewed by a reporter with a gold medal hanging around her neck. the reporter asks “and what are you doing next?” the skateboarder says “I’m going to sell enterprise software in SF!”



这一轮新体验更强的模型全家桶带来的则是谷歌“史上最贵”的AI会员。


只有月订阅费249美元(折合人民币约1800元)的“Ultra Tier”会员,才能用上谷歌这次发布最炸的视频模型Veo3。而超过千元人民币的定价,足以把大多数普通AI玩家拦在门外。



不过,足够惊艳的模型效果,还是让我们好奇:Veo3的真实实力究竟如何,是否可以带来新一轮AI视频内容爆发?仅从官方Demo和网友晒出的实测视频来看,Veo3的出现,冲击的不止AI视频生成赛道,对垂类数字人产品、AI剪辑应用都构成了威胁。


Veo 3开通谷歌“史上最贵”AI会员究竟值不值?我们怒氪了价格最高的谷歌Ultra会员,打折下来相当于900元人民币/月,替大家试了试(谷歌官方Ultra会员价格是249美元/月,即人民币1800元/月,作者新账号初次充值,前3个月有半价折扣,所以暂时为900元人民币/每月)。


以下是我们刚刚出炉的实测案例:


目前,Veo 3模型已经在Gemini应用中面向Google AI Ultra订阅用户开放,Ultra会员也可以在Flow平台直接使用Veo 3。

 

体验地址:https://labs.google/fx/zh/tools/flow


Flow的交互界面和Sora非常相似,点击“新建项目”后,就可以创建AI视频工作流。在这里,你不仅可以通过文本提示词的方式一键生成相应视频,也可以生成图片后以“关键帧”的方式进行创作。




只要在文本框中输入相应的提示词和一次性生成视频数量,质量选择“Highest Quality”,就默认调用Veo 3,我们以最近很火的“AI猫片”为例:


提示词:A video of a retro cycling show from the 1980s, featuring a cat. She is cycling along the Bund in Shanghai and says, “Now, I’m in Shanghai” Then the camera turns to the Oriental Pearl Tower behind her and says to the cat, “Hey, welcome to Shanghai” Noise in the videotape.



可以看到,Veo3不仅一键生成了猫猫骑车的场景,还为它配上了台词,让它说出了“我在上海”。


不仅如此,不同镜头下猫猫的形象也保持一致,连“东方明珠”的镜头转换也是一次搞定的。


尽管AI生成音效这一功能早已不新鲜了,国内的通义千问、可灵等AI视频工具都能一键为视频配乐,但此次Veo 3的更新之处在于,它能够一键实现“音画同步”。


要知道,传统的AI视频制作工作流中,我们需要用到AI图像工具如GPT-4o、Midjourney、即梦等,再用AI语音工具生成或克隆声音,最后调用AI视频工具同步对口型。


但Veo 3不仅创建了画面内容,还能生成匹配的对白、音效和噪音。



不过,在实测过程中我们发现,文字字幕还是会出错,但诸如“猫猫对话”、“婴儿讲播客”这类超现实主义的场景,Veo 3没有办法精准还原提示词内容,画面中依旧会出现口型对不上、猫叫声等瑕疵内容。


一旦需要动用AI的想象力,Veo 3就“歇了”。



提示词:a video with dialogue of two cats while talking with each other , the first cat says “I can’t believe this Veo 3 thing can do dialogue now!”, another cat says “wow, a talking cat!”


另外,Veo 3模型现在只支持文本生成视频,图生视频功能暂未上线。一旦涉及到素材、关键帧生成视频,就会调用Veo 2模型。


值得一提的是,生成好视频后,我们还能在Flow平台上对视频进行精细化编辑,比如延长视频、剪辑画面、添加新场景等等。



例如,我们可以先设置猫猫播客的对话场景,再在时间轴上添加新的场景和文字描述,从而延长视频,形成一个完整的故事内容。



总的来说,Veo 3在英文语义理解、写实元素、画面配音等方面展现了其差异化优势。但也存在一些不完美之处:无法使用中文提示词、生成错误文字……


和其他AI视频生成工具相比,Veo 3更侧重于生成效率,实现音画同步直出。对于视频创作者而言,这种“一键直达”非常重要,大大简化了视频制作的流程。


尽管目前体验Veo 3需要花费千元,但这种“无缝生成”同样也让AI视频创作进入了新的发展阶段,模型对视觉和声音的交互有了新的理解。新一轮AI视频创作爆发,或许离我们不远了。


P.S.我们还联系到了谷歌官方合作的AI视频创作者Junie,她用Veo 3和Flow制作了一部AI微电影在谷歌大会上展出。对专业创作者来说,Veo 3相比其他AI视频工具有哪些优势、影片具体制作流程如何?我们准备和Junie聊一聊,后续内容会在近期推出。





(文:AI新榜)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往