2分钟玩转HeyGen最新模型：一张照片+一句话，秒出AI分身！超逼真！

编辑 | Sia

咳咳，你还能分辨出什么是真实的吗？

不仅说话，它们还可以唱歌。

仔细看她的嘴巴、脸颊和眼睛，甚至胸部的起伏，动作细节非常到位，是不是足以以假乱真？

不止是做数字「人」，任何形象——宠物、外星人，你想象得到的，都能立刻动起来。

这就是 HeyGen 刚刚发布的 Avatar IV 模型——只需一张照片、一段脚本、一段声音，就能生成一个以假乱真的数字人，只需几秒。

工具链接：https://app.heygen.com/home

Avatar IV 亮点可不少。

不止能处理正脸照，还支持侧脸、半身、全身等多角度图像输入，生成的数字人更立体、更生动，自带电影镜头感，不再是死盯镜头的 AI 面瘫脸。

更厉害的是，它不仅能说，还能唱。嘴型精准贴合音乐节奏，连眼神、头部、身体（比如腹部）都会随之起伏律动，细节拿捏到位。

核心升级来自一项新技术：基于扩散模型的音频驱动表情引擎。

简单理解，就是这套引擎能根据语音的节奏、语气、情绪，自动生成对应的表情与动作。它不是单纯对口型，而是能「听懂」语义和情绪，做出停顿、点头、语调起伏等细腻动作，像个真正会说话的人。

应用场景也因此拓宽了不少：动画视频制作、虚拟宠物拟人化、游戏角色配音、播客内容可视化……统统都能用上。

订阅用户可上传最长 30 秒的语音或文本，生成动态数字人视频，做个广告绰绰有余。

免费用户则有每月 3 次机会，生成最长 10 秒视频。

好了，看看怎么玩儿。

第一步，访问 HeyGen 官网，选择「照片转视频」最新模型—— Avatar IV。

上传一张你想让它开口说话的照片，接着输入文字脚本+选择声音，或者直接上传一段音频。

我们上传的是周星驰的剧照，配上哪吒的 Rap 打油诗音频：

「天雷滚滚我好怕怕，劈得我浑身掉渣渣。突破天劫我笑哈哈，逆天改命我吹喇叭。」

注意：免费用户最多生成 10 秒视频，别贪心，脚本或音频太长不会被系统支持。

没有现成音频？没关系。系统自带多种声音，还能克隆自己的声音，甚至接入第三方 API。

不过也有些小遗憾——相比英文，系统的中文声音资源还不算丰富。

你可以根据方言口音、声音性别、年龄、情绪（比如愤怒、兴奋、平静）、使用场景等维度筛选。

当然，不是每个声音都支持丰富的情绪表达。

左右滑动查看更多

准备就绪，点击「Generate」，等待片刻，成品视频立刻送达。

嘴型精准匹配，眼神、头部、身体微动跟随语音节奏，连喉结都跟着上下浮动，真实感拉满。

接下来我们试了个更大胆的操作：

上传编辑部同事家边牧的照片，让它来一段全球爆火的《APT.》。

照片中边牧正好伸着舌头，导致数字人效果略显出戏，但其他部分表现依然在线，尤其是腹部细节，做得很到位。

苏格兰国立美术馆用 X 光扫描梵高画作《农妇头像》，意外发现画布背后竟藏着一幅自画像，层层胶水和硬纸板封印多年。

于是我们尝试：让勃鲁盖尔笔下的名画《老妇人的肖像》播报这则新闻——一下子，吸睛指数拉满。

那么，问题来了——你想做个什么样的数字人？还等什么，快去试试吧。

（文：AI好好用）