除夕无休! DeepSeek 推多模态大模型Janus-Pro,实测生图效果一般

作者Jimmy

来源AI先锋官

就在DeepSeek血洗华尔街,屠榜应用下载榜之际,深度求索公司公司又于除夕再度发出杀招!

28日凌晨,DeepSeek在Hugging Face平台发布了全新升级的多模态大模型Janus-Pro 7B和1.5B版本,此次发布的Janus-Pro系列是去年10月基础版模型的迭代升级。

技术报告显示,其70亿参数版本在多项文生图基准测试中表现优异,不仅超越了OpenAI的DALL-E 3,还领先于Stability
AI最新推出的Stable Diffusion 3-Medium模型。

值得注意的是,15亿和70亿的参数量级意味着该模型具备在普通个人电脑本地部署运行的潜力,且采用MIT开源协议,允许商业场景的无限制应用。
技术架构方面,凭借优化的训练策略和1.6亿样本数据集支持,Janus-Pro在短提示图像生成领域展现出了超乎意料的稳定性和质量,这就彻底解决了以往大模型在短提示生成容易翻车的问题。
从官方发布的对比图可见,新版模型在图像细节呈现和语义理解方面较前代产品有明显提升。
老规矩,下面我们就来实测看一下Janus-Pro究竟实力几何。

1.视觉理解
我们先用一张图片看一看Janus-Pro对于复杂图片的判断能力。

可以看出,面对轮廓形状高度相近的各型飞机,Janus-Pro不仅成功识别出图片中为波音787型客机,而且,还能在背景有干扰因素的情况下,根据涂装判断出该航司为全日空。不错不错。
作为对照的ChatGPT 4o同样回答正确

接下来上难度——梗图

面对带有一丝恶趣味的meme,Janus-Pro也理解了将左边的“分离式视觉编码”被比喻为强壮的健美狗,而右边的“单一视觉编码器”则被比喻为瘦弱的狗的含义。非常贴切。

这和ChatGPT 4o 的回答不分伯仲,二者均到位解释出了图中的笑点。

然后就是这次Janus-Pro的独门绝技,地标识别

让小编惊喜的是,英国的白崖景观分布于多佛至肯特郡,乃至于赛萨克斯郡,而Janus-Pro竟然能凭借照片准确判断出该处白崖位于肯特郡的国家公园,这在以往的任何大模型上都没有看到。


2.文生图

画一个漂亮的小女孩

Janus-Pro:


DALL·E3:


Grok:

面对短提示生成,整体来说三家大模型均表现突出,面对人物面部的细节也均生成到位。

然而,Janus-Pro的生图效果也并不总是很理想,在实测中,面对进阶版“三日凌空”的刻画中则生成出了一幅与语义完全不同的场景。

有专家分析:在多模态理解方面,由于Janus-Pro的输入分辨率被限制在384×384,影响了模型在OCR等需要精细识别的任务上的表现。

在文本生图方面,较低的分辨率以及视觉Token编码器引入的重建损失,导致生成的图像细节表现上仍有不足,并且这种问题也可能导致语义理解失败。

但瑕不掩瑜

GitHub数据显示,Janus-Pro开源24小时内即获得超3000次星标,衍生出包括Stable Diffusion插件、Photoshop扩展在内的7个社区项目。

开源社区代表张天翼在技术论坛留言称:”DeepSeek一贯的开源策略让开发者可以无顾虑地将其集成到商业产品中,这可能会催生新一代AI艺术创作工具”

最后,小编祝大家新春快乐!

 

(文:AI先锋官)

欢迎分享

发表评论