太惊艳!字节跳动 INFP,让虚拟对话 “活” 起来啦

在人工智能和计算机视觉技术飞速发展的今天,虚拟人物对话技术正逐渐从科幻走向现实。然而,现有的对话头部生成方法存在诸多局限性,如需要显式的角色分配和切换、无法涵盖所有对话状态、生成的面部行为与对话音频内容的一致性较差等。为克服这些局限性,字节跳动推出了INFP项目,一种全新的音频驱动交互式头部生成框架。

一、项目概述

INFP是字节跳动精心研发的一款专注于二元对话场景的音频驱动交互式头部生成框架。它的核心价值在于能够将静态的头像巧妙地转化为充满活力的动态对话伙伴。在虚拟对话的情境中,借助先进的人工智能算法和深度学习模型,虚拟人物能够根据对话音频自然且丰富地展现各种表情和动作。无论是日常闲聊时的轻松微笑、点头认可,还是激烈讨论时的专注神情、手势辅助,都能栩栩如生地呈现出来,让虚拟对话更加贴近真实人类交流。

二、INFP的技术原理

  • 基于运动的头部模仿阶段模型从大量对话视频中学习如何提取对话时的交互和运动行为,包括非语言动作和语言动作,并将其映射到运动隐空间。在这个过程中,涉及到从大量真实对话视频中提取面部交流行为,如说话时的唇部动作、倾听时的点头动作等,并将其编码为可以驱动静态图像动画的运动潜在代码。映射后的运动编码可以用来驱动肖像照片,生成相应的视频。

  • 音频引导的动作生成阶段该阶段由一个交互运动引导模型和一个条件扩散模型组成。前者将来自智能体及其对话伙伴的音频作为输入,从可学习的记忆库中检索语言和非语言动作,以构建交互式动作特征。后者利用交互式运动特征作为条件,与其他信号一起通过去噪生成运动潜码,从而实现音频驱动的头部生成。

三、INFP的核心特点

  • 音频驱动,角色自动切换INFP采用统一的框架,通过输入的双轨对话音频,驱动个体在说话和倾听状态之间动态自然地切换,无需手动指定说话人,避免了显式角色切换导致的不自然过渡。

  • 高度真实的表情与动作面部表情、头部动作与音频内容可保持高度一致,唇形同步效果精准,自然流畅。这得益于在训练过程中对大量真实对话视频的学习和对动作特征的精细提取与映射。

  • 轻量级与高性能框架经过深度优化,具有轻量级的特性,在NVIDIA Tesla A10上速度超过40fps,能够支持实时视频生成,使得运行效率高,部署成本低,适用于即时通讯、视频会议等实时场景。

  • 多语言与多场景支持支持多语言音频生成,适合国际化应用,同时还支持唱歌模式,以及侧面头像和非人类形象的生成,扩展了使用范围,可应用于社交媒体与互动娱乐、教育培训、客户服务、广告与营销、游戏与模拟等多个领域。

四、INFP的实验结果

研究团队围绕 INFP 展开了大量严谨的实验,并与当前最先进的(SOTA)方法进行了全面细致的比较。实验结果充分彰显了 INFP 在多个关键方面的卓越表现。

1、交互式头部生成

在评估图像质量的关键指标,如结构相似性指数(SSIM)、峰值信噪比(PSNR)和弗雷歇距离(FID)等方面,INFP 的表现显著优于基线模型。这表明 INFP 生成的交互式头部图像在结构完整性、细节清晰度和与真实图像的相似度上具有明显优势。同时,在音频 – 唇同步性方面,INFP 能够实现高度精准的匹配,虚拟人物的口型与音频中的语音完美契合,极大地提升了真实感。在身份保留方面,即使经过多次动作生成和变换,INFP 依然能够准确地保持虚拟人物的原有身份特征,确保角色的辨识度。并且,在动作多样性上,INFP 生成的虚拟人物动作丰富多样,能够模拟出各种自然的对话动作,避免了传统方法中动作单一、重复的问题。

2、倾听头部生成

在倾听头部生成方面,INFP 在大多数评估指标上都超越了其他 SOTA 方法,如 L2LRLHG 和 DIM 等。它能够准确地根据对话音频和情境,生成符合倾听状态的自然头部动作和表情,如专注的眼神、适当的点头回应等,展现出了对倾听场景的良好理解和模拟能力。

3、说话头部生成

在说话头部生成的实验评估中,INFP 在音频 – 唇同步性和身份保留方面表现尤为突出。其生成的说话时的头部动作和唇形与音频内容高度一致,同时能够稳定地保留虚拟人物的身份特征,使得虚拟人物在说话过程中既真实又具有可辨识度,为虚拟对话的真实性提供了有力保障。

五、INFP的应用场景

  • 视频会议与即时通讯在视频会议和即时通讯软件中,INFP可以实时生成虚拟头像,让沟通更具趣味性和表现力,为用户提供更加自然和流畅的交互体验。

  • 虚拟主播能够自动生成虚拟主播视频,提升内容生产效率,降低制作成本,同时还能保证虚拟主播的表情和动作自然逼真,吸引更多观众。

  • 教育与娱乐在教育场景中,可用于创建虚拟教师或培训师,提供更加生动和互动的教学体验;在娱乐领域,可用于生成具有自然表情和头部动作的交互式头像,增强用户的互动体验,如在游戏和模拟环境中创建更加真实和互动的角色,提高游戏的沉浸感和互动性。

  • 客户服务与广告营销在客户服务领域,可生成虚拟客服代表,提供更加人性化的服务;在广告与营销活动中,可生成更加吸引人的虚拟代言人,提供更加逼真和互动的广告体验。

六、总结与展望

INFP框架通过创新的设计和强大的功能,克服了现有对话头部生成技术的局限性,为我们带来了全新的交互体验。然而,目前的方法仍然存在一些局限性,如仅依赖音频输入,未来可以考虑结合来自多个模态的控制信号,例如视觉和文本内容,以提供更多的功能;目前主要关注于头部合成,未来可以考虑将生成范围扩展到上半身,甚至是全身。随着技术的不断进步,相信INFP在未来会不断完善和发展,为我们带来更加智能、更加逼真的虚拟对话体验,在更多领域发挥重要作用,甚至让虚拟人物成为我们生活中不可或缺的一部分。

论文地址https://www.arxiv.org/pdf/2412.04037

(文:小兵的AI视界)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往