除夕，DeepSeek发布全新多模态模型Janus-Pro，新年暴击OpenAI！

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2025我们继续出发。

这也许是DeepSeek送给我们所有人的新年礼物。

继通用模型DeepSeek-V3和推理模型DeepSeek-R1后，DeepSeek还在输出。

1月28日，大年二十九，除夕夜，DeepSeek继续“放大招”，发布并开源了Janus-Pro系列多模态模型，其中的Janus-Pro-7B直接对标OpenAI的DALL·E 3和Stable Diffusion，并在多项基准测试中实现碾压式超越！《黑神话：悟空》制作人冯骥直呼DeepSeek为“国运级科技成果”。

Janus-Pro最最厉害的地方，是它既能理解多模态类型的输入，又能文生图。同时兼顾这两个特性且保持高性能，至今没有其他模型能做到。举个例子，强如GPT-4o也只能理解图片（多模态能力），没法直接生成图片；OpenAI有专门执行“文生图”的模型，叫DALL·E 3。而Janus-Pro则是把多模态和文生图融合到了一起。

那么，Janus-Pro是怎么做到这一点的？Janus-Pro延续了前代模型Janus的架构理念，通过将视觉编码解耦成“理解编码器”和“生成编码器”，分别处理多模态理解（Multimodal Understanding）和图片生成（Text-to-Image Generation）任务。这种解耦方式的好处是避免了单一编码器在两种任务间的冲突，以便同时满足多模态理解和文生图的需求。

在此基础上，Janus-Pro采用自回归Transformer（Auto-Regressive Transformer）作为统一处理框架，将图像特征和文本特征整合为一维序列，投喂给模型进行处理。

除夕夜发布的Janus-Pro系列共有2个模型：Janus-Pro-1B和Janus-Pro-7B。下面是这两个模型在多模态理解和图片生成方面，与其他旗舰模型的基准测试对比。

可以看到，针对多模态理解（左图），这两个模型在相同或更小的参数规模下，碾压式超越了所有竞争对手。

而针对文生图能力（右图），Janus-Pro-7B也超越了所有主流扩散模型（如DALL·E 3、Stable Diffusion）。

接下来我们实测一下Janus-Pro-7B的真正实力。

`Janus-Pro-7B`体验地址

Janus-Pro-7B体验地址：https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B

Janus GitHub仓库地址：https://github.com/deepseek-ai/Janus

Multimodal Understanding 功能实测

DeepSeek官方给的这张示例图“怪”生动形象的。

Janus-Pro-7B的回答出乎意料的“惊艳”！

这张图片通过对比两种视觉编码方式，以幽默的方式展示了它们的差异。

左侧的图像标题为“Decoupling Visual Encoding”，旁边是一只肌肉发达的柴犬，象征着强大的视觉编码能力。这表明，这种编码方式能够有效地处理和理解视觉信息，并且具有强大的处理能力。

右侧的图像标题为“Single Visual Encoder”，旁边是一只看起来有些疲惫和沮丧的柴犬，象征着较弱的视觉编码能力。这表明，这种编码方式可能无法有效地处理和理解视觉信息，或者在处理视觉信息时遇到了困难。

总体而言，这张图片通过对比两种视觉编码方式，幽默地展示了它们在处理视觉信息时的差异。

Text-to-Image Generation 功能实测

提示词：A cute and adorable baby fox with big brown eyes, autumn leaves in the background enchanting,immortal,fluffy, shiny mane,Petals,fairyism,unreal engine 5 and Octane Render,highly detailed, photorealistic, cinematic, natural colors.

附上由Janus-Pro-7B生成的这张图片，效果不错。

插一句。

1月28日，DeepSeek依旧持续遭到大规模网络攻击，据称是“国家级”网络攻击。目前虽然DeepSeek网页端能够正常访问（https://chat.deepseek.com/），但其开发者平台页面已无法打开，显示“维护中，将尽快恢复服务”。

据官媒“玉渊谭天”向奇安信安全专家了解到的消息，DeepSeek这次受到的网络攻击，攻击形式多样，包括DDoS和暴力破解，且攻击者IP地址都来自美国。

（文：AI信息Gap）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Janus-Pro-7B体验地址

Multimodal Understanding 功能实测

Text-to-Image Generation 功能实测

发表评论 取消回复

`Janus-Pro-7B`体验地址

发表评论取消回复