除夕,DeepSeek发布全新多模态模型Janus-Pro,新年暴击OpenAI!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2025我们继续出发。

这也许是DeepSeek送给我们所有人的新年礼物

继通用模型DeepSeek-V3和推理模型DeepSeek-R1后,DeepSeek还在输出。

1月28日,大年二十九,除夕夜,DeepSeek继续“放大招”,发布并开源了Janus-Pro系列多模态模型,其中的Janus-Pro-7B直接对标OpenAI的DALL·E 3Stable Diffusion,并在多项基准测试中实现碾压式超越!《黑神话:悟空》制作人冯骥直呼DeepSeek为“国运级科技成果”。

Janus-Pro最最厉害的地方,是它既能理解多模态类型的输入,又能文生图。同时兼顾这两个特性且保持高性能,至今没有其他模型能做到。举个例子,强如GPT-4o也只能理解图片(多模态能力),没法直接生成图片;OpenAI有专门执行“文生图”的模型,叫DALL·E 3。而Janus-Pro则是把多模态和文生图融合到了一起。

那么,Janus-Pro是怎么做到这一点的?Janus-Pro延续了前代模型Janus的架构理念,通过将视觉编码解耦成“理解编码器”和“生成编码器”,分别处理多模态理解(Multimodal Understanding)和图片生成(Text-to-Image Generation)任务。这种解耦方式的好处是避免了单一编码器在两种任务间的冲突,以便同时满足多模态理解和文生图的需求。

在此基础上,Janus-Pro采用自回归Transformer(Auto-Regressive Transformer)作为统一处理框架,将图像特征文本特征整合为一维序列,投喂给模型进行处理。

除夕夜发布的Janus-Pro系列共有2个模型:Janus-Pro-1BJanus-Pro-7B。下面是这两个模型在多模态理解图片生成方面,与其他旗舰模型的基准测试对比。

可以看到,针对多模态理解(左图),这两个模型在相同或更小的参数规模下,碾压式超越了所有竞争对手。

而针对文生图能力(右图),Janus-Pro-7B超越了所有主流扩散模型(如DALL·E 3Stable Diffusion)。

接下来我们实测一下Janus-Pro-7B的真正实力。

Janus-Pro-7B体验地址

Janus-Pro-7B体验地址:https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B

Janus GitHub仓库地址:https://github.com/deepseek-ai/Janus

Multimodal Understanding 功能实测

DeepSeek官方给的这张示例图“怪”生动形象的。

Janus-Pro-7B的回答出乎意料的“惊艳”!

这张图片通过对比两种视觉编码方式,以幽默的方式展示了它们的差异。

左侧的图像标题为“Decoupling Visual Encoding”,旁边是一只肌肉发达的柴犬,象征着强大的视觉编码能力。这表明,这种编码方式能够有效地处理和理解视觉信息,并且具有强大的处理能力。

右侧的图像标题为“Single Visual Encoder”,旁边是一只看起来有些疲惫和沮丧的柴犬,象征着较弱的视觉编码能力。这表明,这种编码方式可能无法有效地处理和理解视觉信息,或者在处理视觉信息时遇到了困难。

总体而言,这张图片通过对比两种视觉编码方式,幽默地展示了它们在处理视觉信息时的差异。

Text-to-Image Generation 功能实测

提示词:A cute and adorable baby fox with big brown eyes, autumn leaves in the background enchanting,immortal,fluffy, shiny mane,Petals,fairyism,unreal engine 5 and Octane Render,highly detailed, photorealistic, cinematic, natural colors.

附上由Janus-Pro-7B生成的这张图片,效果不错。


插一句。

1月28日,DeepSeek依旧持续遭到大规模网络攻击,据称是“国家级”网络攻击。目前虽然DeepSeek网页端能够正常访问(https://chat.deepseek.com/),但其开发者平台页面已无法打开,显示“维护中,将尽快恢复服务”。


据官媒“玉渊谭天”向奇安信安全专家了解到的消息,DeepSeek这次受到的网络攻击,攻击形式多样,包括DDoS暴力破解,且攻击者IP地址都来自美国




(文:AI信息Gap)

欢迎分享

发表评论