视觉理解与生成归档

多模态AI模型再添猛将！Liquid：字节最新开源的多模态LLM，视觉与语言统一生成！

2025年4月17日8时作者开源星探

Liquid 是一款由字节跳动、华中科技大学和香港大学联合开源的强大模型，能无缝集成视觉理解与生成能力。其7B参数的多模态大语言模型基于离散编码技术，能够实现统一处理图像、文字输入输出，表现出色的视觉理解和强大的图像生成功能。

DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

2024年12月15日20时2024年11月22日14时作者量子位

Janus团队提出了一种名为JanusFlow的新模型，该模型结合了预训练视觉编码器与MLM的方法以及基于Rectified Flow的生成框架，实现了统一的视觉理解和生成能力。通过将理解与生成任务分别配置专用编码器，并利用REPA方法加速生成训练，JanusFlow在多模态理解和生成任务上表现出色。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31