SkyReels-Audio:让肖像”动”起来 – Skywork AI开创全能音频驱动的人像视频生成技术
SkyReels-Audio 是 Skywork AI 团队开发的一款创新框架,能够将静态图像或视频与语音输入相结合,生成高度逼真且唇形同步的说话人像视频。该框架基于预训练的视频扩散变换器构建,支持无限长度的视频生成和编辑,并提供多模态控制能力。
SkyReels-Audio 是 Skywork AI 团队开发的一款创新框架,能够将静态图像或视频与语音输入相结合,生成高度逼真且唇形同步的说话人像视频。该框架基于预训练的视频扩散变换器构建,支持无限长度的视频生成和编辑,并提供多模态控制能力。
随着人工智能技术的发展,谷歌推出了音频概览功能,将AI对复杂搜索查询提供快速摘要转化为简短的音频片段。此功能通过Gemini AI模型支持,允许用户选择播放两个AI声音讨论特定主题的播客。
Voicemod Key 是一款面向游戏主机的新变声硬件设备,已在欧洲上市。它兼容任天堂、PlayStation 和 Xbox 游戏平台,并提供200种AI语音和超过80万种音效。该公司通过Voicemod Key实现了其在PC软件的基础上的另一个重要里程碑。
约克大学音乐研究者介绍了一张由人类和AI即兴演奏的专辑,利用神经音频合成技术让人类音乐家在现场与AI生成的声音即兴合作。这项技术被认为是自采样出现以来最大的创新之一。
SiriusXM Media与Narrativ签署多年协议,利用人工智能复制技术大规模制作本地化音频广告,旨在降低成本和缩短制作周期,并计划将其整合到自助创意平台AdMaker中。该公司还与SAG-AFTRA签订协议保护配音演员的声音副本,确保创作者的控制权和报酬。
JBL 推出五款升级版回音壁产品,涵盖多种尺寸和价格区间,新增杜比全景声、DTS:X 等功能,最高配置 Bar 1300MK2 预计9月上市。
MPSE宣布2025年度奖项将不受理任何使用生成式人工智能制作声音的成品作品,引发关注。此举成为好莱坞首个反对生成式人工智能的工会组织,并为未来类似规模项目树立先例。