DeepSeek又开源Janus-Pro,7B多模态强势登顶,OpenAI彻底慌了

大家新春快乐,继DeepSeek R1之后,DeepSeek深夜又放大招,开源下一代统一多模态模型Janus-Pro,包含2个尺寸:Janus-Pro-1BJanus-Pro-7B

先看效果,后面进行技术报告解读(回复“Janus-Pro”可获取),效果上,Janus-Pro超越了以往的统一模型,并与特定任务的模型相匹配或超过其性能,包括:Meta、Google、OpenAI、Stability AI等等。

与多模态理解基准测试中的最新技术进行比较。“Und.”和“Gen.”分别表示“理解”和“生成”。使用外部预训练扩散模型的模型用†标记。

Janus-Pro 是 Janus 的高级版本,主要在三个方面进行了改进:优化的训练策略、扩展的训练数据和更大的模型规模。这些改进使得 Janus-Pro 在多模态理解和文本到图像指令遵循能力方面取得了显著进步,同时增强了文本到图像生成的稳定性。

架构

Janus-Pro 的架构与 Janus 相同,核心设计原则是解耦多模态理解生成的视觉编码。使用独立的编码方法将原始输入转换为特征,然后由统一的自回归transformer处理。对于多模态理解,使用 SigLIP-L 编码器从图像中提取高维语义特征;对于视觉生成任务,使用 VQ tokenizer 将图像转换为离散 ID。这些特征序列被拼接后输入到 LLM 中进行处理。

优化的训练策略

Janus-Pro 对 Janus 的三阶段训练过程进行了优化:

  • 第一阶段:增加训练步骤,充分训练 ImageNet 数据集,即使 LLM 参数固定,模型也能有效建模像素依赖并生成合理图像。

  • 第二阶段:放弃 ImageNet 数据,直接使用正常的文本到图像数据训练模型生成图像,提高训练效率和整体性能。

  • 第三阶段:调整数据比例,减少文本到图像数据的比例,以维持强大的视觉生成能力,同时提高多模态理解性能。

数据扩展
Janus-Pro 在多模态理解和视觉生成方面扩展了训练数据:
  • 多模态理解:增加了约 9000 万样本,包括图像字幕数据集和表格、图表、文档理解数据。

  • 视觉生成:增加了约 7200 万合成美学数据样本,使真实数据与合成数据的比例达到 1:1,提高了模型的收敛速度和输出的美学质量。

模型扩展

Janus-Pro 将模型规模从 1.5B 扩展到 7B,使用更大规模的 LLM 时,多模态理解和视觉生成的损失收敛速度显著提高,验证了该方法的强可扩展性。

https://hf-mirror.com/deepseek-ai/Janus-Pro-7Bhttps://hf-mirror.com/deepseek-ai/Janus-Pro-1Bhttps://github.com/deepseek-ai/Janus

(文:PaperAgent)

欢迎分享

发表评论