最近还纳闷呢,之前那么卷的可灵最近模型上没啥动静,我猜是不是憋大招呢。
果不其然从图片到视频全线模型都获得了大版本更新,我也提前测试了一下,2.0 太猛了,直接把视频模型的竞争拉到了下个阶段!
老规矩先看视频,我为这次可灵 2.0 做的视频带剧情的,名字是《Dual Horizon》,强烈推荐先看看效果。
从图片到视频到音效全是在可灵平台生成。
介绍一下更新内容:
- 可图更新 2.0 图片生成模型
- 图片质量大幅提升,尤其是叙事感和电影感大幅增强
- 增加风格转换功能,只需要简单提示就能将图片转换为任意风格
- 可灵更新 2.0 大师视频模型
- 文生视频和图生视频复杂动态、提示词理解能力大幅提升
- 1.6 模型增加视频编辑能力,可以修改任意视频内容
可图 2.0
图像模型现在已经进到了下个竞争阶段,各家都不在追求大而全的全面领先,而是开始追求跟自己的生态相结合,可图 2.0 的升级也是一样,这次可图 2.0 的电影感非常强。
在光线、色彩调校、构图、景深控制、氛围营造还有质感上的表现都非常强。
比如这张图片中对于百叶窗光线和威士忌酒杯光线的表现,以及对于低饱和度色彩的理解都非常到位。
在一个仅被百叶窗缝隙透入的微弱光线照亮的昏暗房间里,一个身着风衣、头戴礼帽的男人侧身站在窗边,面部大部分隐于阴影之中,只有下颚线条和缭绕的烟雾被锐利的光线勾勒出来;房间深处散落着文件,桌上的威士忌酒杯反射着唯一的光源,整个画面采用高对比度的黑白或极低饱和度色彩处理,营造出浓厚的悬疑和宿命感。

下面这个更是离谱,他理解了什么是荷兰角构图,同时在动感模糊上处理的非常自然,还确保了主体是清晰的,整张图片的色彩也非常高级。
采用略微倾斜的荷兰角构图,镜头紧跟在一个奔跑穿过拥挤市集的人物身后,周围环境(人群、摊位、彩色布料)因快速移动而产生动感模糊;光线复杂,明暗交错,人物急促的呼吸和紧张的眼神(如果可见)暗示着追逐或逃亡的情节,画面充满了动感、混乱和紧迫的氛围。

这个更是离谱,看到的一个你已经可以脑补出一个故事来了,这还只是一个静态的图像,光线和投影以及构图一下子就把孤独感立住了。
在一条雨后湿漉的深夜城市街道上,一个孤独的身影背对着镜头站在刺眼的路灯光束下,强烈的顶光勾勒出人物轮廓并投下长长的、变形的阴影,周围环境隐没在黑暗中,只有远处商店模糊的霓虹灯在浅景深效果下化作一片片柔和的彩色光斑,突显出人物在都市环境中的孤立与神秘感。

另外可图现在也支持了风格转换,但是不需要你找图片了,只需要上传想要转换的图片,然后在提示词的部分输入想要转换的风格就行。比如下面这个图片的吉卜力风格。

而且还上线了局部重绘这个非常重要的功能,扩图功能也做了全新升级,更加强大了,可以试试。
可灵 2.0
可灵 2.0 的如果只是描述的话就两个运动幅度大幅提升、提示词遵循大幅提升。
但是当你看到他的提升相较于 1.6 有多大时你就会理解这玩意现在强到什么地步了,这次真是毫无争议的第一了,大幅领先后面所有人。
如果你还没看过开头我的测试视频的话建议你翻上去看一眼,我们先来看一下运动幅度的对比。
在 1.6 的时候这两个人根本就不打,再看一下 2.0,持械格斗是视频模型里面非常困难的一步,2.0 比之前强太多了,而且不只是动作,运镜速度都变快了,这么快速的环绕镜头,整个一致性也没啥问题。
提示词:低角度,快速摇摄。 古罗马竞技场风格的场景,两个角斗士手持武器战斗,周围是模糊的观众轮廓。
另外就是提示词理解,原来 1.6 也可以生成十秒的视频,但是大家用的不多,主要是因为上个阶段的视频模型无论哪个都有运动幅度小提示词理解不行的问题,所以即使跑了 10 秒的视频后半部分要不就得加速用要不就是崩了不能用。
这次 2.0 更新以后大家应该都会经常生成 10 秒了,可灵 2.0 现在可以理解一个场景中非常复杂的提示词,不管是在内容上的还是时间顺序上的,比如我视频里这个 10 秒的换弹镜头,在其他模型根本不太可能搞出来。
我们看一下提示词中的关键点:晃动镜头、子弹打在掩体上、眼神扫视、拔出弹夹、换上弹夹、拉栓、反击,顺序基本都是对的而且都做了。
虽然你要一帧一帧看可能有些问题,但是这种级别的效果是以前根本不敢想能在视频模型上做出来的,太强了。
提示词:中景,固定或轻微晃动镜头。 镜头聚焦于掩体后的枪手。子弹猛烈地击打在TA身前的混凝土掩体上,碎屑飞溅 (0-2s)。枪手紧贴掩体,快速呼气,眼神警惕地扫视前方,判断火力间隙 (2-4s)。TA迅速从腰间拔出一个新弹匣,同时熟练地按下卡榫,空弹匣掉落在地发出轻微声响 (4-6s)。在插入新弹匣的瞬间,一发流弹几乎擦着TA的头飞过,迫使TA猛地一缩头 (6-7s)。TA迅速将新弹匣“咔哒”一声稳稳装上,拉动枪栓上膛,动作果断而急促 (7-9s)。最后,TA深吸一口气,眼神变得锐利,准备探身反击 (9-10s)
可灵 1.6 多模态编辑
之后是原来 1.6 模型的新能力多模态编辑能力,支持替换、增加、删除视频中的任何物品或者背景。
具体的用法是切换到「多模态编辑」Tab,然后先选择你是替换、删除还是增加,之后选择一下替换或者删除的画面主体,最后提示词的写法需要注意在指定图片的时候不能用第一张或者第二张这种词,而是需要用 @ 符号 指定对应的图片或者视频。

这个能力感觉会比 2.0 要更受普通用户欢迎,视频编辑加上实际拍摄的视频玩法太多了,比如换装、搞抽象等都非常好传播。
具体可以看下面这个演示,我分别将原来的士兵替换为了高科技机器人,然后是将画面增加了机器人而且让他做出攻击动作,最后是从画面中删掉了原来的士兵。
可以看到可灵提取了图片主体的关键特征另外主体的光线颜色都根据视频有对应的变化,不是单纯的生硬嵌入,融合度非常好。
好了这次的测试基本就到这里了。
AI 模型进步和竞争非常激烈,这一年我们看了非常多的起起落落,所以可灵能在如此长时间内持续领先真的很厉害。
回望过去一年多的技术发展,一个不争的事实愈发明显:
优秀的模型能力依然是AI时代赢得市场、赢得用户的最可靠路径。
然而,持续的模型领先是极其困难的。
在AI领域,技术迭代速度远超传统软件,领先优势常常在几个月内就被抹平。
能够像可灵这样在短短10个月内不断迭代、持续保持竞争力是非常罕见的。
他们做到这一点,不仅需要强大的技术实力,更需要对产品方向的准确判断和执行力的极致体现。
恭喜可灵团队,现在他们已经在视频生成领域站在了与OpenAI和Claude同等的位置,过去这么长时间只有 Open AI Claude 做到了在一个模型领域如此长时间的领先。
今天又是 AI 领域一个值得纪念的日子,因为我们又一次看到了那些执着于追求极致的人们所创造的未来。
感谢各位如果觉得写的不错的话可以给个赞👍或者喜欢🩷,也可以转发给你的朋友。
(文:归藏的AI工具箱)