文生图模型归档

文生图进入R1时代：港中文MMLab发布T2I-R1，让AI绘画“先推理再下笔”

2025年5月13日16时作者量子位

港中文MMLab团队发布首个基于强化学习的推理增强文生图模型T2I-R1，通过双层级CoT推理框架和BiCoT-GRPO强化学习方法实现了高效的图像生成。该模型在多个基准测试中表现出色，并展示了其在理解与生成任务中的有效性。

2025年4月16日16时作者机器之心

业内人已在询问「这个魔法般模型」的出处。
有人对模型效果颇为认可，好奇如何体验。
神秘模型 Moga

2025年3月26日14时作者老刘说NLP

2025年3月26日，北京天气阴。文章讨论了多模态RAG技术在视觉领域和目标检测中的应用，并介绍了GPT-4发布的新功能及OpenAI承认的技术风险。同时，文章还提到了Vision-R1方案及其强化学习奖励函数设计。

2025年3月26日8时作者 AIGC开放社区

专注AIGC领域的专业社区分享了OpenAI GPT-4和Sora的新更新，特别是文生图模型的能力增强，包括逼真度高、支持自定义操作等功能。文章展示了几个实际生成的案例，如奇幻世界和人体结构介绍图，并提及OpenAI联合创始人Sam Altman对这一新模型的高度评价。

2024年12月18日22时作者 AI新榜

字节豆包在2024火山引擎FORCE原动力大会上发布了多项大模型更新，包括视觉理解模型、文生图模型、音乐大模型和3D大模型。豆包视觉理解能力增强，并推出了加量不加价的识图功能；文生图模型支持生成中文内容；音乐大模型能局部修改歌词；3D大模型则可生成3D世界模型，提升了用户创作效率和体验。

2024年12月18日20时作者量子位

最新模型Bridge Diffusion Model具备原生中文理解能力，并兼容Stable Diffusion生态。它能生成穿中式婚礼礼服的歪国明星，由360人工智能研究院提出并开源。BDM解决了文生图模型的世界观偏见问题，与SD生态兼容，利用不同网络分支学习多种语言数据，支持多模态生成任务。

2024年12月9日14时作者量子位

xAI发布了名为Aurora的新文生图模型，并在Grok平台上上线。该模型生成的人物图像逼真且高清，引发了网友们的讨论与整活。