

硬·AI
作者 | Kozmon
编辑 | 硬 AI
周末,躺在公园百无聊赖刷手机的我,差点被一条消息惊掉下巴:
全球AI圈公认的权威视频生成评测榜单VBench刚刚更新了最新一期图生视频(I2V)排名,排在第一,不是大名鼎鼎的OpenAI Sora,也不是风头正劲的谷歌Imagen Video,而是百度的视频生成模型Steamer-I2V,总分更是飙到了89.38%!
讲真,我第一眼看到的时候也是满脸问号:百度?图生视频?榜单第一???这是啥情况?
再去刷了一圈AI圈子,结果发现好多KOL也都一脸蒙圈:
“什么情况?VBench榜单第一怎么突然被百度承包了?”
“百度PR部门是不是放假去了?这么猛的成绩连个新闻稿都不发一下?”

01
大厂开始发力图生视频
悄咪咪地拿下VBench图生视频榜单第一的百度,也引发了我的好奇——现在文生视频那么热闹,一堆厂商恨不得让你输入几句话就秒出一个大片,为什么会有大厂突然在图生视频赛道上发力?
和圈内朋友打了一通电话后,我发现,这是一个基于市场实际需求的明智选择。
首先,大家卷T2V(文生视频)热闹归热闹,但是真正用下来就发现问题不少:比如生成结果不可控,经常会“惊喜”变“惊吓”,商业化难度很大。
相较于文生视频常见的不确定性和难以控制的结果,I2V(图生视频)的模式更像是给AI一个“明确的起点”,提供了更高的可控性和稳定性。
只要上传一张图片,再输入一些简单的描述,就能自动生成一条专业级视频,成本甚至不到传统制作的1/20——自然,也就更容易被品牌和企业用户接受。
想象一下,如果你是一个品牌营销人员,需要为产品制作宣传视频,你更愿意选择哪种方式?是从零开始描述,然后祈祷AI能理解你的意图?还是直接上传产品图片,让AI基于真实素材生成视频?答案其实是显而易见的。
而在影视创作领域,随着GPT-4o等一系列大模型P图能力的升级(参见我们之前介绍的文章),在AI图片领域越来越容易实现角色一致性的今天,越来越多的从业者正习惯于使用AI图片工具制作保持角色一致性的分镜图,再进入AI视频软件生成视频——瞧,这也是图生视频需求。
02
我们再深扒一下,这个模型究竟厉害在哪?
Steamer-I2V为什么能一举拿下VBench榜单图生视频的第一名?

我们再深扒一下,发现它的背后,有三大非常领先的技术优势:
(1)像素级画面精准控制,大师级运镜
传统AI视频生成的最大毛病,就是控制不了细节。Steamer-I2V则以拍摄视角为基础,对视频生成的prompt做到了精细化设计,精准控制画面细节、运动轨迹、风格属性和镜头语言,直接避免了”差不多得了”的那种马虎事儿。
另外,它还支持多模态条件输入,包括中文文本提示、参考图像和引导信号,确保与特定的创意意图保持高度一致。
(2)高清画质,电影级动态美学
基于前沿的Transformer扩散架构,模型可生成分辨率高达1080P的高清视频,呈现流畅的过渡效果与逼真的物理运动规律。
更重要的是,通过多阶段SFT训练、人工反馈的偏好学习、时间步采样优化等策略,Steamer-I2V对时间一致性、电影镜头构图和运动规律性进行了针对性优化。
而这,会让整个视频序列展现出优秀的逻辑连贯性和视觉连续性,让生成的视频几乎看不到AI生成内容常见的抖动、闪烁或不自然的运动。
(3)中文语义精准理解
这可能是百度最独特的竞争优势。Steamer-I2V构建了亿级规模的中文多模态训练数据库,通过”筛选-净化-配比”三级数据优化体系,确保文本指令与视觉元素的语义对齐精度。
这种精心设计的数据清洗机制使模型具备专业级中文概念解析能力,可精准捕捉文化特定元素与复杂语义关联,显著提升中文创意指令的视觉转化准确率。
对于中国创作者来说,这意味着他们可以用最自然的方式表达创意意图,而不必被迫使用英文或担心翻译不准确导致的效果偏差。
03
百度的多模态野心:
拼图逐渐清晰,生态才是真正杀招?
深入思考后,我意识到,Steamer-I2V的大放异彩可能并非偶然事件,而是百度整体AI战略的重要一环。
1.年初百度推出”百看”搜索,这是一种全新的智能搜索体验,变革了传统搜索的结果组织方式。”百看”支持多模态输入,让用户能通过语音、图像等多种方式表达需求,并获得结构化、丰富的答案。
2.生成式AI正在为企业构筑更多营销新场域,百度宣布商业系统升级为“百度伴飞”,在智能问答、笔记、信息聚合以及短剧、小说、游戏等新场域,文心大模型在满足用户需求的基础上,也帮助企业进一步收获更多商业空间。生成式AI能为“用商”双端同时带来价值,未来2年将释放10倍商业空间。
回顾百度今年一系列动作,百度正在构建一个全方位的AI内容生态系统,覆盖从搜索、文档到视频创作的各个环节。
想象一下未来的场景:你在百度搜索中输入一个问题,得到的不仅是文字回答,还有AI实时生成的相关视频内容;你可以在百度视频信息流、短剧频道、搜索专题、搜索合集等丰富的场域享受到优质的短剧、笔记、小说、游戏等内容。同时,你也可以以创作者身份用百度AI视频生成能力创作优质的短剧、视频内容,带来更多的变现机会…
这种用商一体,无缝集成的体验,正是百度所描绘的AI未来图景。
04
结语:
低调的百度,认真的野心
总而言之,这次百度的视频生成模型登顶VBench榜单,真的是既出乎意料,又在情理之中。
有趣的是,尽管取得了如此重大的突破,百度却保持着出人意料的低调。没有盛大的发布会,没有铺天盖地的宣传,甚至连一篇正式的新闻稿都没有。
这种”低调做事”的风格,在当下AI公司动辄”放卫星”的环境中显得格外特别。
也许,这正是百度的高明之处。在AI竞争白热化的今天,与其喊口号,不如实实在在地做出成绩——也正因如此,我才更期待接下来百度会怎么用这个技术来玩转自己的业务生态。
我相信,这次的百度,是真的认真起来了。
传送门:
https://steamer001.github.io/steamer/
硬·AI
(文:硬AI)