Nvdia开源AI文本转音效模型,只要3.7秒就能生成30秒的音效,影视配音将越来越简单。
TangoFlux是由新加坡科技设计大学和NVIDIA联合开发的高效文本到音频生成模型,能在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。该模型采用流匹配框架,并引入了CRPO技术提升生成音频与文本描述的匹配度。
TangoFlux是由新加坡科技设计大学和NVIDIA联合开发的高效文本到音频生成模型,能在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。该模型采用流匹配框架,并引入了CRPO技术提升生成音频与文本描述的匹配度。
专注AIGC领域的专业社区报道了英伟达发布的世界最小AI计算机Project DIGITS,搭载最新技术,支持大模型运行,适用于开发者和科研机构。