智谱开源了文生图模型CogView4,我们的诗歌从此有了画面

活久见,

OpenAI十二天发布会,DeepSeek开源周,

刚融了杭州10个亿的智谱卷出了新高度,接下来是「开源年」。

好陌生的单词,

智谱有意思的点就是因为它覆盖了基座、推理、多模态模型,以及 Agent。每次它更新就想抽盲盒一样。

大概,开源的模型太多,也算是一件幸福的烦恼吧。

这次有幸内测上了开源年的第一个开源模型:

CogView4-6B

一个支持中英双语提示语输入,能画古诗文,同时支持在画面中生成中英文字体的文生图开源模型,

在 DPG-Bench基准测试中的综合评分排名第一,在开源文生图模型中达到 SOTA,超过了DeepSeek的Janus-Pro-7B、Flux.1-dev、SD3-Medium。

更6的是,支持在2048*2048任意范围的分辨率生成,再加上模型对同一个提示语的遵循度很高,这样的好处就是不会因为后期裁剪放大而影响清晰度,而且我可以随心生成各种尺寸的图片,不再局限于固定的比例,这样图片可以适配的场景就非常广泛。

同样的提示语可以生成不同比例

这个模型3月13号就会上线智谱清言,搭配上智谱清影,就可以形成一套完整的AI视频工作流,至于清影效果怎么样,之前我也有写过很详细的测试文章,大家可以参考:

智谱悄悄上线清影2.0,四维能力已达T0,新晋AI视频性价比之神

测试了一大波,我目前总结出来这个模型比较擅长的几种图片类型:诗歌风景类,中英文字体混杂类,分屏图片类。

首先先看两张诗歌风景图:

飞流直下三千尺
轻舟已过万重山

其实这种诗歌类型的图片,很考验模型对于提示语的理解程度。这里我给到模型的提示语就是很简单的:

“生成一幅描绘xxxxxx诗句的风景图,中国水墨画风格”

可以看到 CogView4-6B 非常好的get到了诗句里的意思,山水、瀑布、小船,画的都很有感觉,诗歌的意境一下子就有了。

我已经幻视有小朋友的家长们让小孩背古诗,现在直接就可以上图辅助理解了。

然后再看中英文文字的表现,我把生成的prompt也直接放上来:

prompt:生成一张日照金山的雪山风景图,图片顶部用中文字体写着‘日照金山’和英文’Snow Mountain’,再下方用英文字体写着‘Stunning scenery’。文字需要清晰、稳定,字体风格为手写风格,背景为自然风景,适合用于旅游宣传。

prompt:一面涂鸦墙,墙上写着涂鸦字体的中文字“炸裂”

prompt:生成一张咖啡店门口的图片,店的招牌上写着中文字体的‘卡尔的咖啡店’,下方写着英文字体的小字‘Carl’s coffee’,文字需要清晰、稳定。

通过提示语可以直接自定义文字的位置,大小,甚至还能定义字体。这个效果确实是够炸裂了!

如果文字的位置比较复杂的话,可能要多生成两遍,但是基本效果都是很稳定的,非常好出。

我真的很喜欢这种能够支持稳定生成文字的效果,毕竟这样,之后我的文章头图,宣传图,甚至搞点什么ppt的配图,简直易如反掌啊!福音啊福音!

最后再看个厉害的,让我非常意想不到的分屏效果,照例也是直接把提示语放出来:

prompt:生成一张图片,画面平均分成四个区域,从左到右依次描绘春天的柳树,夏天的荷花,秋天的枫叶和冬天的梅花四个画面,并在四个区域依次写上中文字“春”“夏”“秋”“冬”,中国水墨画风格,水墨笔触明显

不仅分出来的每一 part 的画面内容对,甚至连文字都是对的,而且基本上两三次就能跑出来很稳定的效果,分屏内容非常准确。可见 CogView4-6B 对于提示语的高度理解能力。

我很好奇为什么这次CogView4能支持双语、能放下任意长度的输入语、还能输出任意尺寸的图片。

把公开的技术细节丢给智谱后,它给出的解释是:

  1. CogView4 将文本编码器从纯英文的 T5 encoder 换为具备双语能力的 GLM-4 encoder,并通过中英双语图文对进行训练,使 CogView4 模型具备双语提示词输入能力。(这就是自研模型多的好处啊)

  2. 支持任意长度输入就像是一个“弹性袋子”,能根据描述的长短自动调整容量。即使描述长达几百字,也能高效理解核心内容,节省50%的“废话”空间。

  3. 能生成任意尺寸的图片是因为图片变大或变小(比如从512×512变成1024×1024),模型也能通过“拉伸坐标”调整位置编码,像缩放地图一样适应新尺寸。

这次的技术含量还是挺足的。


 写在最后 

上一个达到综合第一的Flux,

现在已经基本把 Stable Diffusion 的淘汰了。

而 CogView4-6B 评分这次已经超过了Flux!

甚至,这次 SOTA 的智谱 CogView4-6B,还会自带 ControlNet、ComfyUI 以及全套的微调工具,

太贴心了,我现在只想大喊“源神,启动”!

基座、推理、多模态、自主Agent通通都有,而且每一项效果都不差。很难想象智谱是不是全员都有三头六臂在搞开发。

你说为啥10个亿要投给智谱?

答案已经显而易见了,

至少在开源领域,

我们可以永远相信智谱,

相信他们带来的开源奇迹!


@ 作者 / 卡尔 & 阿汤 @ 动手学AI知识库 / learnprompt.pro


(文:卡尔的AI沃茨)

欢迎分享

发表评论