作者|Jimmy
来源|AI先锋官
就在DeepSeek血洗华尔街,屠榜应用下载榜之际,深度求索公司公司又于除夕再度发出杀招!
28日凌晨,DeepSeek在Hugging Face平台发布了全新升级的多模态大模型Janus-Pro 7B和1.5B版本,此次发布的Janus-Pro系列是去年10月基础版模型的迭代升级。
技术报告显示,其70亿参数版本在多项文生图基准测试中表现优异,不仅超越了OpenAI的DALL-E 3,还领先于Stability
AI最新推出的Stable Diffusion 3-Medium模型。
面对带有一丝恶趣味的meme,Janus-Pro也理解了将左边的“分离式视觉编码”被比喻为强壮的健美狗,而右边的“单一视觉编码器”则被比喻为瘦弱的狗的含义。非常贴切。
这和ChatGPT 4o 的回答不分伯仲,二者均到位解释出了图中的笑点。
然后就是这次Janus-Pro的独门绝技,地标识别
让小编惊喜的是,英国的白崖景观分布于多佛至肯特郡,乃至于赛萨克斯郡,而Janus-Pro竟然能凭借照片准确判断出该处白崖位于肯特郡的国家公园,这在以往的任何大模型上都没有看到。
2.文生图
画一个漂亮的小女孩
DALL·E3:
Grok:
面对短提示生成,整体来说三家大模型均表现突出,面对人物面部的细节也均生成到位。
然而,Janus-Pro的生图效果也并不总是很理想,在实测中,面对进阶版“三日凌空”的刻画中则生成出了一幅与语义完全不同的场景。
有专家分析:在多模态理解方面,由于Janus-Pro的输入分辨率被限制在384×384,影响了模型在OCR等需要精细识别的任务上的表现。
在文本生图方面,较低的分辨率以及视觉Token编码器引入的重建损失,导致生成的图像细节表现上仍有不足,并且这种问题也可能导致语义理解失败。
但瑕不掩瑜
GitHub数据显示,Janus-Pro开源24小时内即获得超3000次星标,衍生出包括Stable Diffusion插件、Photoshop扩展在内的7个社区项目。
开源社区代表张天翼在技术论坛留言称:”DeepSeek一贯的开源策略让开发者可以无顾虑地将其集成到商业产品中,这可能会催生新一代AI艺术创作工具”
最后,小编祝大家新春快乐!
(文:AI先锋官)