
图像提供身份,文本定义一切!🔥
硬评测
作者 | Kozmon
编辑 | lalalunee
用AI生成视频最让人头疼的,莫过于「角色一致性」问题。老是弄着弄着人就变样了,让人哭笑不得:
前一秒还是你指定的帅气小哥,镜头一转,秒变「路人甲」?或者,精心设计的虚拟主播,说着说着就「面目全非」?
针对这个「老大难」问题,腾讯混元团队放了个大招——发布并开源了一个叫HunyuanCustom的新工具,在保持AI视频「人不变脸、物不乱飘」这事上,效果特别顶。
简单说,你给它一张图,它就能把图里的主角给你「焊死」,让他上天入地、七十二变,在新场景、新动作、甚至换了身衣服的情况下,角色,都不会出现一点变化,效果一点不输顶级闭源模型!
而且不光是单主角,多主角也能安排,真正做到了「图像提供身份,文本定义一切」。
给大家划一下产品重点哈:
-
核心的「单主体视频生成」是这么玩的:你给一张图(比如你老板),再配句文字(比如“他正在大马路上遛狗”),HunyuanCustom就能认出照片里的人,然后在新场景、新动作、甚至换了身衣服的情况下,生成一段连贯自然的视频,关键是人还是那个人,不会「变脸」。
-
不光能搞定一个人,还能玩「多主体视频生成」。比如,你同时给一张人物照和一张产品照(比如一包薯片),再告诉它“一名男子正在游泳池旁边,手里拿着薯片进行展示”,它就能让这两个主体都按你的剧本出现在视频里,并且保持各自的特征。
-
还有个「视频驱动」模式也挺有意思,官方叫「视频局部编辑」。你能把图片里的人或东西,自然地「P」到一段现成的视频里去,或者替换掉视频里原有的某些元素。搞点创意植入、场景扩展,或者说给视频内容「二次创作」一下,都方便多了。
-
还能「音频驱动」生成视频,也就是所谓的“单主体视频配音”。你给张人物图,配上一段声音(比如一段演讲或歌声),它就能生成这人在各种场景里开口说话、唱歌的视频,表情口型啥的都能对上。这对做「数字人」直播、虚拟客服、在线教育演示什么的,简直是降本增效神器。
-
以前的视频AI,要么是文生视频,每次随机性太大,「角色一致性」愁死人;要么就是图生视频,顶多让照片上的人做几个固定表情,衣服背景基本都锁死了,想换个场景换个动作比登天还难。 HunyuanCustom牛就牛在,它通过引入「身份增强机制」和「多模态融合模块」,真正做到了「图像提供身份,文本定义一切」。 -
这套东西,对视频创作者、短视频博主、电商老板、广告创意人来说都挺实用。比如,广告里模特一秒换装、换背景;电商用「数字人」声情并茂地介绍产品,还不用真人出镜;或者快速捣鼓出一部设定一致的短剧、小故事视频,效率和效果都能提一大截。 -
总的来说,HunyuanCustom在「可控性」和「一致性」上表现非常突出。它能很好地理解文字、参考图像、甚至声音等多种模态的指令,生成的人物细节、动作流畅度和光影真实感都达到了业内领先水平。
硬评测
(文:硬AI)