大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效率提升,AI行业洞察。关注我,AI之路不迷路,2025我们继续出发。
这也许是DeepSeek送给我们所有人的新年礼物。
继通用模型DeepSeek-V3
和推理模型DeepSeek-R1
后,DeepSeek还在输出。
1月28日,大年二十九,除夕夜,DeepSeek继续“放大招”,发布并开源了Janus-Pro
系列多模态模型,其中的Janus-Pro-7B
直接对标OpenAI的DALL·E 3
和Stable Diffusion
,并在多项基准测试中实现碾压式超越!《黑神话:悟空》制作人冯骥直呼DeepSeek为“国运级科技成果”。
Janus-Pro
最最厉害的地方,是它既能理解多模态类型的输入,又能文生图。同时兼顾这两个特性且保持高性能,至今没有其他模型能做到。举个例子,强如GPT-4o
也只能理解图片(多模态能力),没法直接生成图片;OpenAI有专门执行“文生图”的模型,叫DALL·E 3
。而Janus-Pro
则是把多模态和文生图融合到了一起。
那么,Janus-Pro
是怎么做到这一点的?Janus-Pro
延续了前代模型Janus
的架构理念,通过将视觉编码解耦成“理解编码器”和“生成编码器”,分别处理多模态理解(Multimodal Understanding)和图片生成(Text-to-Image Generation)任务。这种解耦方式的好处是避免了单一编码器在两种任务间的冲突,以便同时满足多模态理解和文生图的需求。
在此基础上,Janus-Pro
采用自回归Transformer(Auto-Regressive Transformer)作为统一处理框架,将图像特征和文本特征整合为一维序列,投喂给模型进行处理。
除夕夜发布的Janus-Pro
系列共有2个模型:Janus-Pro-1B
和Janus-Pro-7B
。下面是这两个模型在多模态理解和图片生成方面,与其他旗舰模型的基准测试对比。
可以看到,针对多模态理解(左图),这两个模型在相同或更小的参数规模下,碾压式超越了所有竞争对手。
而针对文生图能力(右图),Janus-Pro-7B
也超越了所有主流扩散模型(如DALL·E 3
、Stable Diffusion
)。
接下来我们实测一下Janus-Pro-7B
的真正实力。
Janus-Pro-7B
体验地址
Janus-Pro-7B
体验地址:https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7BJanus GitHub仓库地址:https://github.com/deepseek-ai/Janus
Multimodal Understanding 功能实测
DeepSeek官方给的这张示例图“怪”生动形象的。
Janus-Pro-7B
的回答出乎意料的“惊艳”!
这张图片通过对比两种视觉编码方式,以幽默的方式展示了它们的差异。
左侧的图像标题为“Decoupling Visual Encoding”,旁边是一只肌肉发达的柴犬,象征着强大的视觉编码能力。这表明,这种编码方式能够有效地处理和理解视觉信息,并且具有强大的处理能力。
右侧的图像标题为“Single Visual Encoder”,旁边是一只看起来有些疲惫和沮丧的柴犬,象征着较弱的视觉编码能力。这表明,这种编码方式可能无法有效地处理和理解视觉信息,或者在处理视觉信息时遇到了困难。
总体而言,这张图片通过对比两种视觉编码方式,幽默地展示了它们在处理视觉信息时的差异。
Text-to-Image Generation 功能实测
提示词:A cute and adorable baby fox with big brown eyes, autumn leaves in the background enchanting,immortal,fluffy, shiny mane,Petals,fairyism,unreal engine 5 and Octane Render,highly detailed, photorealistic, cinematic, natural colors.
附上由Janus-Pro-7B
生成的这张图片,效果不错。
插一句。
1月28日,DeepSeek依旧持续遭到大规模网络攻击,据称是“国家级”网络攻击。目前虽然DeepSeek网页端能够正常访问(https://chat.deepseek.com/
),但其开发者平台页面已无法打开,显示“维护中,将尽快恢复服务”。
据官媒“玉渊谭天”向奇安信安全专家了解到的消息,DeepSeek这次受到的网络攻击,攻击形式多样,包括DDoS和暴力破解,且攻击者IP地址都来自美国。
(文:AI信息Gap)