鹅厂放大招,混元图像2.0「边说边画」:描述完,图也生成好了

腾讯发布混元图像2.0模型,实现毫秒级响应实时生成图文。用户可通过手打Prompt、语音输入或上传参考图进行创作,支持多种风格转换与优化功能。亮点包括更大模型参数、高压缩倍率图像编解码器、多模态大语言模型作为文本编码器等。

超级爆火的TTS模型:Kokoro!荣登 TTS Arena 排行榜第一名,小巧轻量高性能!

一款名为Kokoro TTS的开源文本转语音模型凭借其82M参数和高效性能迅速走红。它支持多种语言,并能在普通CPU上实现近乎实时的语音生成,适用于语音助手、有声读物等应用场景。