DeepSeek正式发布了集理解与生成于一体的多模态大模型Janus-Pro。目前,相关代码和模型已完全开源。
Janus-Pro采用了创新性自回归框架,并实现了多模态理解与生成的统一,是对去年发布的前代模型Janus的全面升级。它通过将视觉编码解耦为独立的通道,克服了先前方法的局限性,同时仍然使用单一且统一的Transformer架构进行处理。
这种解耦不仅缓解了视觉编码器在理解和生成方面的固有角色冲突,还显著提升了框架的灵活性。结果显示,升级后的Janus-Pro在多模态理解和文生图能力上都实现了显著突破,同时文生图的稳定性也得到了提升。



参考文献:
[1] 论文地址:https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf
[2] 开源项目:https://github.com/deepseek-ai/Janus
[3] https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B
[4] https://huggingface.co/spaces/deepseek-ai/Janus-1.3B
[5] https://huggingface.co/spaces/deepseek-ai/JanusFlow-1.3B
(文:NLP工程化)