DeepSeek正式发布了集理解与生成于一体的多模态大模型Janus-Pro

DeepSeek正式发布了集理解与生成于一体的多模态大模型Janus-Pro。目前，相关代码和模型已完全开源。

Janus-Pro采用了创新性自回归框架，并实现了多模态理解与生成的统一，是对去年发布的前代模型Janus的全面升级。它通过将视觉编码解耦为独立的通道，克服了先前方法的局限性，同时仍然使用单一且统一的Transformer架构进行处理。

这种解耦不仅缓解了视觉编码器在理解和生成方面的固有角色冲突，还显著提升了框架的灵活性。结果显示，升级后的Janus-Pro在多模态理解和文生图能力上都实现了显著突破，同时文生图的稳定性也得到了提升。

参考文献：
[1] 论文地址：https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf
[2] 开源项目：https://github.com/deepseek-ai/Janus
[3] https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B
[4] https://huggingface.co/spaces/deepseek-ai/Janus-1.3B
[5] https://huggingface.co/spaces/deepseek-ai/JanusFlow-1.3B

（文：NLP工程化）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复