实时生成归档

谷歌发布音乐模型！

2025年6月26日11时作者路过银河AI

Magenta RealTime 是一个开源音乐生成模型，由 Google 开发，能够在资源有限的环境中部署。它基于 SoundStream RVQ 编解码器和 MusicCoCa 模型工作原理。

2025年6月20日23时作者机器之心

LAM论文提出了一种通过单张图像实现即时驱动高斯头像的方法，无需后处理网络和视频数据训练，支持跨平台实时渲染，已在多模态艺术创作、智能交互对话等领域应用。

2025年6月10日16时作者量子位

香港大学与英伟达联合推出广义空间传播网络(GSPN)，通过二维线性传播和稳定性-上下文条件显著降低计算复杂度，提升视觉任务效率，并在多个视觉领域刷新性能纪录。

2025年5月16日16时作者量子位

腾讯发布混元图像2.0模型，实现毫秒级响应实时生成图文。用户可通过手打Prompt、语音输入或上传参考图进行创作，支持多种风格转换与优化功能。亮点包括更大模型参数、高压缩倍率图像编解码器、多模态大语言模型作为文本编码器等。

2025年3月15日16时作者开源星探

一款名为CSM的新开源TTS模型由Sesame最新发布，能够生成带有上下文情感、自然语气和音调变化的人工智能语音。它具有高保真效果、端到端Transformer生成能力、上下文理解以及实时语音生成等功能。

2025年1月16日8时作者开源星探

一款名为Kokoro TTS的开源文本转语音模型凭借其82M参数和高效性能迅速走红。它支持多种语言，并能在普通CPU上实现近乎实时的语音生成，适用于语音助手、有声读物等应用场景。