智谱开源了文生图模型CogView4，我们的诗歌从此有了画面

活久见，

OpenAI十二天发布会，DeepSeek开源周，

刚融了杭州10个亿的智谱卷出了新高度，接下来是「开源年」。

好陌生的单词，

智谱有意思的点就是因为它覆盖了基座、推理、多模态模型，以及 Agent。每次它更新就想抽盲盒一样。

大概，开源的模型太多，也算是一件幸福的烦恼吧。

这次有幸内测上了开源年的第一个开源模型：

CogView4-6B

一个支持中英双语提示语输入，能画古诗文，同时支持在画面中生成中英文字体的文生图开源模型，

在 DPG-Bench基准测试中的综合评分排名第一，在开源文生图模型中达到 SOTA，超过了DeepSeek的Janus-Pro-7B、Flux.1-dev、SD3-Medium。

更6的是，支持在2048*2048任意范围的分辨率生成，再加上模型对同一个提示语的遵循度很高，这样的好处就是不会因为后期裁剪放大而影响清晰度，而且我可以随心生成各种尺寸的图片，不再局限于固定的比例，这样图片可以适配的场景就非常广泛。

这个模型3月13号就会上线智谱清言，搭配上智谱清影，就可以形成一套完整的AI视频工作流，至于清影效果怎么样，之前我也有写过很详细的测试文章，大家可以参考：

智谱悄悄上线清影2.0，四维能力已达T0，新晋AI视频性价比之神

测试了一大波，我目前总结出来这个模型比较擅长的几种图片类型：诗歌风景类，中英文字体混杂类，分屏图片类。

首先先看两张诗歌风景图：

其实这种诗歌类型的图片，很考验模型对于提示语的理解程度。这里我给到模型的提示语就是很简单的：

“生成一幅描绘xxxxxx诗句的风景图，中国水墨画风格”

可以看到 CogView4-6B 非常好的get到了诗句里的意思，山水、瀑布、小船，画的都很有感觉，诗歌的意境一下子就有了。

我已经幻视有小朋友的家长们让小孩背古诗，现在直接就可以上图辅助理解了。

然后再看中英文文字的表现，我把生成的prompt也直接放上来：

prompt：生成一张日照金山的雪山风景图，图片顶部用中文字体写着‘日照金山’和英文’Snow Mountain’，再下方用英文字体写着‘Stunning scenery’。文字需要清晰、稳定，字体风格为手写风格，背景为自然风景，适合用于旅游宣传。

prompt：一面涂鸦墙，墙上写着涂鸦字体的中文字“炸裂”

prompt：生成一张咖啡店门口的图片，店的招牌上写着中文字体的‘卡尔的咖啡店’，下方写着英文字体的小字‘Carl’s coffee’，文字需要清晰、稳定。

通过提示语可以直接自定义文字的位置，大小，甚至还能定义字体。这个效果确实是够炸裂了！

如果文字的位置比较复杂的话，可能要多生成两遍，但是基本效果都是很稳定的，非常好出。

我真的很喜欢这种能够支持稳定生成文字的效果，毕竟这样，之后我的文章头图，宣传图，甚至搞点什么ppt的配图，简直易如反掌啊！福音啊福音！

最后再看个厉害的，让我非常意想不到的分屏效果，照例也是直接把提示语放出来：

prompt：生成一张图片，画面平均分成四个区域，从左到右依次描绘春天的柳树，夏天的荷花，秋天的枫叶和冬天的梅花四个画面，并在四个区域依次写上中文字“春”“夏”“秋”“冬”，中国水墨画风格，水墨笔触明显

不仅分出来的每一 part 的画面内容对，甚至连文字都是对的，而且基本上两三次就能跑出来很稳定的效果，分屏内容非常准确。可见 CogView4-6B 对于提示语的高度理解能力。

我很好奇为什么这次CogView4能支持双语、能放下任意长度的输入语、还能输出任意尺寸的图片。

把公开的技术细节丢给智谱后，它给出的解释是：

CogView4 将文本编码器从纯英文的 T5 encoder 换为具备双语能力的 GLM-4 encoder，并通过中英双语图文对进行训练，使 CogView4 模型具备双语提示词输入能力。（这就是自研模型多的好处啊）
支持任意长度输入就像是一个“弹性袋子”，能根据描述的长短自动调整容量。即使描述长达几百字，也能高效理解核心内容，节省50%的“废话”空间。
能生成任意尺寸的图片是因为图片变大或变小（比如从512×512变成1024×1024），模型也能通过“拉伸坐标”调整位置编码，像缩放地图一样适应新尺寸。

这次的技术含量还是挺足的。

写在最后

上一个达到综合第一的Flux，

现在已经基本把 Stable Diffusion 的淘汰了。

而 CogView4-6B 评分这次已经超过了Flux！

甚至，这次 SOTA 的智谱 CogView4-6B，还会自带 ControlNet、ComfyUI 以及全套的微调工具，

太贴心了，我现在只想大喊“源神，启动”！

基座、推理、多模态、自主Agent通通都有，而且每一项效果都不差。很难想象智谱是不是全员都有三头六臂在搞开发。

你说为啥10个亿要投给智谱？

答案已经显而易见了，

至少在开源领域，

我们可以永远相信智谱，

相信他们带来的开源奇迹！

@ 作者 / 卡尔 & 阿汤 @ 动手学AI知识库 / learnprompt.pro

（文：卡尔的AI沃茨）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复