即梦 AI 上线 “动作模仿” 功能了

用AI工具创作视频,也慢慢往接近真实物理世界和模仿真人方向发展。看我文章的老朋友应该还记得 9 个月前写过一篇《可灵大模型在短视频上发力》推文,在当时来讲Diffusion Transformer架构是具备强大能力的新鲜事物。


近日,字节跳动旗下的AI创作平台即梦AI正式上线“动作模仿”功能。用户只需通过“数字人”入口上传一张人物图片和一条参考视频,即可生成一条动态视频。图片中的人物不仅能复刻参考视频的动作,还能“一比一还原情绪”。个人觉得这一功能的推出,揭示了AI视频生成技术从“工具化”迈向“生态化”的关键一步,并重新定义了“数字人”的创作边界。


动作迁移进步为情绪同步


即梦AI“动作模仿”功能之所以引发关注,核心在于它的技术方案是显式与隐式特征混合驱动的。


之前的AI视频生成技术,虽能实现动作控制,但表情迁移的精细度和情感还原度仍有局限。


这次,团队通过自研的 face motion tokenizer 技术,从驱动视频中精准提取表情细节,并将其映射到静态图片生成的人物上,从而实现了“情绪同步”。


技术升级的背后,是字节跳动对多模态技术的持续深耕。


2025年2月,即梦AI曾预告其闭源模型OmniHuman,支持通过“图片+音频”生成视频,但当时的功能更侧重于动作与音频节奏的匹配。


相比之下,“动作模仿”进一步将输入模态扩展为“图片+视频”,并强化了表情与情绪的耦合,标志着多模态技术的应用场景从“功能型创作”向“情感型表达”跨越。


人人可导演时代的到来


传统视频制作中,角色动作设计需要专业动画师逐帧调整,成本高昂。而即梦AI的“动作模仿”功能将这一过程简化为“上传-生成”两步,且支持肖像、半身、全身等多种画幅,甚至可处理动漫、3D卡通等非真人素材。


轻量化操作大幅降低了创作门槛,普通用户也能够轻松实现以下场景。


个人娱乐,将老照片中的亲人“复活”,重现其标志性动作与笑容。


内容营销,品牌IP形象,如虚拟代言人快速生成广告视频。


教育演示,历史人物“亲自”讲解历史事件,增强教学沉浸感。


值得注意的是,即梦AI官方提供了3个动作模板,并允许用户上传本地文件、最长30秒,这一设计既降低了新手的学习成本,又保留了进阶用户的创作自由度。


创造力与安全性之间的较量


尽管即梦AI强调上传素材需“合法授权”,并对输出视频添加“AI生成”水印,但技术落地的潜在风险仍不容忽视。


用户存在滥用他人肖像或视频片段,导致侵权纠纷,如用明星照片生成跳舞视频并牟利。


情绪的高度还原,控制不好的话会被用于制造虚假新闻或诽谤内容。


当任何人都能轻易“复制”他人的动作与表情,个体的独特性会被技术稀释掉。


即梦AI的应对策略是“技术+制度”双保险,既通过安全审核过滤违规内容,又限制视频时长(30秒)并标注水印,增加滥用成本。


我认为,这些措施是否能跟上技术滥用的速度,仍需观察。


(一)底层技术整合,结合OmniHuman的音频驱动能力与“动作模仿”的视频驱动能力,未来或支持“多模态混合输入”,进一步丰富创作维度。


(二)用户增长飞轮,即梦用户数在春节前后从76万飙升至200万,此次新功能上线或推动新一轮增长。而用户数据的积累又将反哺模型优化,形成正向循环。


(三)生态协同,一旦接入DeepSeek后,即梦就能实现“脚本-视频-分发”的一站式创作闭环,成为字节跳动AI版图中对标MidJourney+RunwayML的超级平台。


“动作模仿”功能的终极意义,或许在于它触及了一个本质问题,即数字人是否需要“灵魂”。


当前的技术已能复刻动作与表情,但“灵魂”的构成远不止于此。它包含记忆、决策逻辑甚至价值观。


⋯ ⋯


想要达到,就需要进行交互升级了。结合大语言模型,让数字人根据用户指令实时调整动作与情绪。


优化个性化训练,允许用户为数字人注入专属行为模式,形成“数字分身”。


制定伦理框架,与技术发展同步建立数字人权责规范,例如明确AI生成内容的归属权。  


⋯ ⋯


梦想落地才有价值,该设想需要去落地。到那时数字人将不再是被操控的“提线木偶”,而是具备“人格”的创作伙伴。


飞流直下三千尺,疑是银河落九天。即梦AI的“动作模仿”功能,既是技术的胜利,也是人性的试金石。它让我们惊叹于AI的创造力,也迫使社会重新审视“真实”与“虚拟”的边界。


真正的挑战不在于技术本身,而在于我们能否在拥抱创新的同时,守住人性的底线。

(文:陳寳)

欢迎分享

发表评论