字节图像生成新模型:主打多主体一致性,新基准数据集同时亮相
字节发布多主体控制生成模型Xverse,可以精确控制多个主体的身份和语义属性。该模型包括T-Mod适配器、文本流调制机制、VAE编码图像特征模块及正则化技术等关键部分,并通过XVerseBench基准测试验证其效果。
字节发布多主体控制生成模型Xverse,可以精确控制多个主体的身份和语义属性。该模型包括T-Mod适配器、文本流调制机制、VAE编码图像特征模块及正则化技术等关键部分,并通过XVerseBench基准测试验证其效果。
研究人员提出了一种‘嫁接’新思路——直接将预训练好的模型作为‘底座’,通过修改组件来研究新架构。这种方法在不增加大量计算资源的情况下提高了文生图模型的生成速度,并且保持了较好的图像质量。
谷歌发布最强视频生成模型Veo 3,能从画面到对白原生直接生成,并且用户可通过自然语言描述角色、场景和指定对白与语气。
Align-DS-V团队投稿
量子位 | 公众号 QbitAI
如果把DeepSeek-R1震撼硅谷
文章介绍了百度文心一言的大模型RAG技术,通过检索增强生成方式让AI在作答时更准确、丰富且有态度。实测显示其能精准回答复杂问题,并保持客观性。文章强调了RAG技术对大模型输出结果的影响及其重要性。
OpenAI的新研究展示了通过增加推理时的计算量来提升模型对抗性稳健性的潜力,这一发现可能缓解外界对Agent能力增强后面临安全风险的担忧。
鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI
如果说有一类
游戏
贯穿AI发展的始终,围绕其