首款！能够实时生图的模型出现了

刚刚，腾讯混元发布了全新的图片生成模型——Hunyuan Image2.0。

模型基于超高压缩倍率的图像编解码器、全新的扩散架构、超大模型尺寸和RL后训练，实现了超快推理速度和超高质量图像生成。

有多快呢？我一句Prompt还没打完，它已经生成了3-4张图片。等我Prompt敲完，终版图片当场直接生成（如果是英文prompt，还会更快）。

如果我没记错，这可能是有LLM以来第一款能够实时生图的模型。

体验地址：https://hunyuan.tencent.com

在快这件事情上，Hunyuan真NB。语义响应速度遥遥领先，以0.9597分超过了所有生图模型。

一手实测

1、毫秒出图

1分钟有60秒，1秒又分1000毫秒。Hunyuan Image2.0模型，说“秒出图片”已经有点侮辱它了，实际体验是“毫秒出图”。

Prompt输完，图片也就直接生成，比目前市面上所有的生图模型都要快。

无论多复杂的Prompt，都是毫秒出图。

即使1000字的Prompt，照样“高超响应速”出图。

现在，我们正在见证一场改变：从“输入提示词-等待模型生成”的线性节奏，变成了输入与输出同步发生的实时对话。

Speed Is All You Need.

2、还保真

而且，在快的同时，还做到了“真”。

对于AI，真实一直是最宝贵的东西。不是AI开始走进我们的现实，而是AI一直带着滤镜（数据集不够导致的问题），就跟我们人一样，老喜欢臭美。所以，你看到很多由AI生成的人物图，一眼假。

但这个模型通过RL后训练和美学后训练，做到了高写实。主打真实感，没有AI味，在一些真实场景下的生图效果非常好，比如怀旧风、胶片感。

以下，是一些实测case。

一对亚洲情侣在楼顶，背后是城市的街景，80年代。

一对亚洲情侣在楼顶，背后是城市的街景，新世纪。

阳光，少女注视着前方，第一视角，双手捂着眼睛，directed by Wes Anderson

一个日本中学生，穿着校服，孤独地站在海边。

爱因斯坦在故宫自拍。

褪色的老照片，泛黄的色调，一位穿粗布旗袍的温婉女子站在民国茶馆门口，背景有黄包车和斑驳砖墙。

苏州园林的雕花窗前，着马面裙的女子低头绣花，鬓边珍珠流苏轻晃，桌上摆着珐琅彩瓷茶具，柔光透过窗纱形成丁达尔效应。

西部拓荒时代的小酒馆，戴牛仔帽的枪手在玩扑克，木墙上的煤油灯晃动着阴影。

全息演唱会上，二次元与真人混合形象的歌姬悬浮舞台中央，粉丝们的AR眼镜投射出彩色弹幕，激光束穿透干冰雾气。

3、是灵魂画师

都已经是毫秒级出图了，那定是所画即所见。

这次上新，腾讯混元还整了个实时绘画板的功能，左边画参考图，下方输提示词，右边实时预览和生成。

这个功能，非常好玩。我用鼠标随手画了几个，我太喜欢AI的随机之美了。

地球观测到，天空中4星连珠，出现了飞碟。参考轮廓，图片强度58。

前卫设计，不规则物体，科技公司。参考轮廓，图片强度55。

海边，电影海报，夕阳。参考轮廓，图片强度82。

胶片摄影，草地，河边，白色塑料袋挂在电线杆上，两个电线杆。参考轮廓，图片强度72。

Case来源：一只小小娜

霓虹灯字体，五彩斑斓，背景是城市。图片强度81。

使用中，建议先画图，然后写prompt，再调整图片强度（0-100，建议在50-80之间），来看预览效果。

也可以上传参考图，然后给它画点啥。比如，给画面里增加一只蝴蝶。

憨态可掬的熊猫趴在人的手心里，蝴蝶。参考轮廓，图片强度82。

写在最后

深度体验了一圈，这个模型确实好玩。所以，在混元超创群里，大家一直玩到了凌晨2点过。

因为，完全没有时间成本啊。输入prompt，马上生成。修改prompt，也是立马生成。

很多时候，你prompt还没写好，它已经给你来了5-6张图。这已经不是所思即所见，而是未知先见，边思边见。

真的，当你体验了这种新的实时交互后，再回到过去那种“输入提示词-等待模型生成”的线性节奏，你会很难受。这种难受，就像你回到十六年前拿着黑莓手机用2.5G一样，一种干着急的难受。

欣喜看到，今天腾讯混元为人类Way to AGI干了一件极其重要的事情——实时生成，带来了人类首款实时生图模型。

这一刻，足以载入人类AI事业的史册。

而它，来自中国。

（文：沃垠AI）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复