AI视频神器！腾讯混元HunyuanCustom，角色一致性大突破！

点击上方蓝字关注我们

图像提供身份，文本定义一切！🔥

硬评测

作者 | Kozmon

编辑 | lalalunee

用AI生成视频最让人头疼的，莫过于「角色一致性」问题。老是弄着弄着人就变样了，让人哭笑不得：

前一秒还是你指定的帅气小哥，镜头一转，秒变「路人甲」？或者，精心设计的虚拟主播，说着说着就「面目全非」？

针对这个「老大难」问题，腾讯混元团队放了个大招——发布并开源了一个叫HunyuanCustom的新工具，在保持AI视频「人不变脸、物不乱飘」这事上，效果特别顶。

简单说，你给它一张图，它就能把图里的主角给你「焊死」，让他上天入地、七十二变，在新场景、新动作、甚至换了身衣服的情况下，角色，都不会出现一点变化，效果一点不输顶级闭源模型！

而且不光是单主角，多主角也能安排，真正做到了「图像提供身份，文本定义一切」。

给大家划一下产品重点哈：

核心的「单主体视频生成」是这么玩的：你给一张图（比如你老板），再配句文字（比如“他正在大马路上遛狗”），HunyuanCustom就能认出照片里的人，然后在新场景、新动作、甚至换了身衣服的情况下，生成一段连贯自然的视频，关键是人还是那个人，不会「变脸」。

不光能搞定一个人，还能玩「多主体视频生成」。比如，你同时给一张人物照和一张产品照（比如一包薯片），再告诉它“一名男子正在游泳池旁边，手里拿着薯片进行展示”，它就能让这两个主体都按你的剧本出现在视频里，并且保持各自的特征。

还有个「视频驱动」模式也挺有意思，官方叫「视频局部编辑」。你能把图片里的人或东西，自然地「P」到一段现成的视频里去，或者替换掉视频里原有的某些元素。搞点创意植入、场景扩展，或者说给视频内容「二次创作」一下，都方便多了。

还能「音频驱动」生成视频，也就是所谓的“单主体视频配音”。你给张人物图，配上一段声音（比如一段演讲或歌声），它就能生成这人在各种场景里开口说话、唱歌的视频，表情口型啥的都能对上。这对做「数字人」直播、虚拟客服、在线教育演示什么的，简直是降本增效神器。

以前的视频AI，要么是文生视频，每次随机性太大，「角色一致性」愁死人；要么就是图生视频，顶多让照片上的人做几个固定表情，衣服背景基本都锁死了，想换个场景换个动作比登天还难。

HunyuanCustom牛就牛在，它通过引入「身份增强机制」和「多模态融合模块」，真正做到了「图像提供身份，文本定义一切」。
这套东西，对视频创作者、短视频博主、电商老板、广告创意人来说都挺实用。比如，广告里模特一秒换装、换背景；电商用「数字人」声情并茂地介绍产品，还不用真人出镜；或者快速捣鼓出一部设定一致的短剧、小故事视频，效率和效果都能提一大截。
总的来说，HunyuanCustom在「可控性」和「一致性」上表现非常突出。它能很好地理解文字、参考图像、甚至声音等多种模态的指令，生成的人物细节、动作流畅度和光影真实感都达到了业内领先水平。

那么，在哪里可以体验上呢？

它的「单主体生成」功能5月9号就已经开源了，大家可以直接去混元官网（hunyuan.tencent.com）的“模型广场-图生视频-参考生视频”里尝鲜。

其他像多主体视频生成、视频配音、视频编辑这些功能，这个月（5月）内也会陆续放出来。

感兴趣的朋友们，快去试试吧~

硬评测

（文：硬AI）