跳至内容

这可能是继DeepSeek开源大模型和通用AI Agent产品Manus之后,又一个足够吸引眼球的AI应用。
开源数字人Heygem项目最近在GitHub社区的人气越来越高,目前已拥有4.4K星。
这个项目由南京独角兽公司硅基智能于近期上传,与传统数字人训练需要数小时甚至数天的模式相比,Heygem对数字人克隆技术实现了极限压缩。
仅需一张照片或一小段视频,就能完成数字人形象和声音的克隆,30秒内克隆形象声音,一分钟内合成出声情并茂的高清数字人视频,创造一个逼真的数字人变得不再有门槛。
开源免费、不限量克隆、支持离线部署,Heygem直接把数字人制作的门槛和成本打了下来,AIGC数字人应用潮可能马上也要被掀起来了。
Heygem给自己的标签是“HeyGen的开源平替产品”,剑指以HeyGen为代表的封闭收费平台。
HeyGen成立于2020年11月,创始人为徐卓,国内主体曾为诗云科技(深圳)有限公司,2022年,由于国内市场业务不温不火经营不善,徐卓团队放弃国内市场转向海外试水,基于该平台深度伪造的美国知名歌手Taylor Swift说普通话视频曾在网络热传,HeyGen也成功在海外市场打开了局面。
公开信息显示,截至2024年6月,HeyGen总计筹资超1.2亿美元,估值达到5亿美元,平台付费客户超过4万,年化经常性收入逾3500万美元,而诗云科技(深圳)有限公司工商信息显示在2024年02月06日已被注销。


收费层面,HeyGen平台目前的免费版每月仅可生成3个视频,最长3分钟且有720p清晰度限制,想要用更好的体验则需要订阅创作者版本(288美元/年)、团队版本(828美元/席位/年)或企业版本(价格另议),此外还有积分制的API定价。
作为开源平替,Heygem项目背后为硅基智能,创始人司马华鹏于2017年成立了该公司,比HeyGen团队起步更早,公开资料显示其最新估值近10亿美元,采用开源的方式将直接对数字人付费平台形成冲击,而且支持全球免费商用,或将改变当下数字人市场的游戏规则。
从其GitHub主页介绍来看,Heygem目前适配了Windows系统开发环境,支持Docker一键部署,需要Windows 10 19042.1526或更高系统版本,官方给的最低配置为:
CPU:第13代英特尔酷睿i5-13400F;内存:32G及以上(必要);显卡:rtx-4070(确保有英伟达显卡,并正确安装显卡驱动);硬盘:空闲空间大于100G。

数字人关键的要求是两点,一是说话像真人,二是各种表情变化像真人,Heygem.ai开源模型体系通过两大技术进行实现,有博主测试发现其效果惊人。
一是Hermes,只需要极短的音频样本就能复刻个性化声纹,并基于语义实时迁移300多种情绪、气息律动,让数字人吐字变得抑扬顿挫,气息张弛有度,最大化模拟人的感染力和情感共鸣。
另一项技术是Morpheus引擎,该技术框架可以让极限环境下的面部细节、口型、表情、光影适配达到电影级颗粒度,支持180°自由视角表达,即便是浓密胡须、侧脸转动以及复杂光照环境的变化,依然能确保100%人物细节匹配,据说复杂光影稳定性提升了400%。

硅基智能还曾推出过一个高保真、实时Face swap算法ReHiFace-S,只需一张照片,无需任何数据训练,一键即可将视频中的脸部替换为你选择的人物形象,让普通小哥一人能切换好几个大佬角色。
关于数字人,硅基智能创始人司马华鹏曾提出过三重进阶:
第一层是“分辨不出”,即AI在信息生成与语言交互层面足够逼真,使得观察者无法通过对话辨别其与真人的区别。
第二层是“双向情感交互”,AI不仅具备精确的表达能力,更能够理解、适应、并主动引导人类的情绪变化,形成具有情感深度的互动体验。
第三层是终极形态“死生相契”,AI不仅是人的陪伴者,甚至可能成为人类情感记忆的延续者,成为生命轨迹的一部分,即便肉身消亡,逼真的智能体仍可存续。
不过,随着Heygem的开源,如何防止这么逼真的数字人技术被恶意滥用可能会是个新的行业问题。
随着先进AI大模型和AI Agent应用的深入,数字人的商业应用或将迎来前所未有的大爆发。
所以,你在网络上或直播间看到的“真人”出镜,可能早已不是真人实拍,而是各种难分真假的生成式数字人。
在视频创作领域,无论是短视频博主、知识型KOL解说还是其他需要出镜的情况,只要有台词脚本,通过HeyGem就能快速生成高质量视频,实现直接从文本脚本到数字人转化,全流程自动化。
在销售与品牌推广场景中,HeyGem配合销售AI Agent便是不知疲倦的带货机器人,运营人员只需上传产品图与文案,系统便能生成4K高清带货视频,精准匹配用户画像进行产品解说或互动。
在影视与数字娱乐行业能克隆演员形象,在教育领域能创造数字化老师,在个人IP与品牌建设方面让人有很多个数字分身,在金融、医疗、律师等专业知识领域,打造基于专业知识模型的数字人顾问,真正实现“硅基劳动力”。
如果有一天AI变得足够智能,流浪地球电影里的“数字生命”概念可能也会照进现实。
据中国互联网协会发布的《中国数字人发展报告(2024)》显示,预计2025 年,我国数字人核心市场规模超400亿元,带动产业市场规模将超6000亿元,目前,我国与数字人相关的企业超114万家,仅2024年1-5月,新增注册数字人相关企业就达17.4万余家。
从企业数量来看,数字人赛道竞争正在变得异常激烈,从互联网科技巨头到中小创业公司纷纷入局,这或许也是硅基智能选择进行技术开源来推动市场加速洗牌的原因之一。
AI数字人在赋能商业的同时,最大的隐患在于滥用风险,而且数字人越逼真,可能衍生出来的社会风险越高。
例如不法分子也可以利用开源技术制造知名人物或普通人视频,通过AI换脸和拟声技术冒充他人实施诈骗,让受害者遭受经济损失。
如果数字人可以被轻易制作,可能会连带产生大量深度伪造的视频,如果是虚假信息,则可能会大范围污染网络环境,冲击社会信用体系,目前数字人行业也广泛存在未经授权使用他人数字人形象、著作权等情况。
总体来看,在数字人大爆发之前,需要通过技术和制度进行监管制约,提升监管效率,同时相关法律法规也亟待完善跟进,将数字人置于有效约束之下是行业健康发展的前提。
(文:头部科技)