生数科技全栈 AI 视频和音频生成工具不需要声音人 AIGC内容生成的新阶段

在我们还在感叹AIGC音频的飞快发展时，声音人的工作很快就要被跳过了，我们在几个月前曾预计，直接全栈生成视音频将是各大AIGC工具在今年的主要更新，这不，生数科技Vidu Q1推出了。

生数科技（ShengShu Technology）正式全球发布了新一代视频生成模型Vidu Q1。这款基于浏览器的模型能够让创作者仅通过两张静态图片和一段文本提示，生成一段5秒、1080p的高清视频。Vidu Q1的“首尾帧”功能升级后，仅需两张图即可生成电影级的自然运镜效果，镜头语言更有“电影感”，即使是复杂场景的运镜也能轻松驾驭。

Vidu Q1不仅在视频生成上表现出色，还推出了革命性的AI音效功能，以高保真音质与精准控制重新定义音效创作。该模型的音效生成功能支持精细化时间控制，用户可以通过文本指令（如“0-2秒添加风声”）自定义音效与背景音乐，生成的音效采样率高达48kHz，远超行业常见的16kHz或32kHz，解决了传统音效生成中的刺耳和失真问题。此外，Vidu Q1还支持多段音效叠加，并以一个完整的音频文件输出，为视频创作提供了更丰富的音效选择。

在内部VBench评分中，Vidu Q1在提示词保真度和帧连贯性方面超过了Runway Gen-2、OpenAI Sora和Luma Dream Machine等竞争对手，而这些对手仍需依赖外部音频工具或更长的渲染时间来达到类似分辨率。Vidu Q1的性价比也非常突出，生成一段5秒1080p视频的成本仅为1.34元，每秒成本低至0.3元，仅为同行的十分之一。例如，Aura Productions在为一部50集的科幻动漫系列测试Vidu Q1时，报告称后期制作成本降低了数量级。

Vidu Q1将图像到图像的转场、1080p五秒渲染、精炼的动漫生成以及提示词驱动的48kHz音频层结合在一起，为小型团队和网红提供了一条无需视觉特效或声音部门即可实现电影级制作的直接路径。生数科技成立于2023年，总部位于新加坡，专注于多模态大语言模型。2024年7月，该公司向商业用户开放了Vidu平台，目前服务的创作者遍布200多个地区，并通过Vidu Q1的新功能吸引影视、广告和社交媒体工作室。

Vidu Q1的发布标志着AI视频生成技术的新里程碑。它不仅在视觉效果上达到了行业领先水平，还在音效生成方面实现了重大突破。该模型支持文本到视频、图像到视频及混合输入，允许用户上传多张图像以确保角色与场景一致性。此外，Vidu Q1还优化了渲染流程，生成5秒1080p视频仅需数秒，消除了传统渲染的长时间等待。

Vidu Q1的发布为多领域创作者提供了广泛应用前景。社交媒体博主与网红可以快速生成病毒式视频，提升粉丝互动；影视工作室则可以利用其强大的功能，高效完成高质量的视频创作。

（文：AI音频时代）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

发表评论取消回复