字节跳动发了个新模型:BAGEL-7B-MoT
这是一个混合专家多模态模型,基于Qwen2.5-7B-Instruct和siglip-so400m-14-980-flash-attn2-navit模型微调,并使用FLUX.1-schnell VAE模型,支持视觉理解、文本到图像生成及图像编辑。
这是一个混合专家多模态模型,基于Qwen2.5-7B-Instruct和siglip-so400m-14-980-flash-attn2-navit模型微调,并使用FLUX.1-schnell VAE模型,支持视觉理解、文本到图像生成及图像编辑。
阿里的MNN移动端多模态大模型APP更新支持Qwen-2.5-omni-3b和7b,可以实现文本到文本、图像到文本等多种生成任务,提供速度优化的开发参考。
字节和POSTECH的研究团队成功将最先进的文本到图像生成模型FLUX的权重参数量化至1.58比特,使模型体积缩小7.7倍,并保持了高质量图像生成能力。
斯坦福大学的研究提出了一种名为扩散自蒸馏(Diffusion Self-Distillation)的方法,该方法通过简单扩展普通扩散 transformer 模型为图像条件扩散模型来实现主体适应性和概念一致性。实验表明,其在概念保留和提示跟随方面都取得了最佳的整体性能。