把动漫带到现实,我用AI跟童年的主角们拍了张会动的大合照

prompt less, play more 

【图片来源:@海辛 和 @阿文(已获得授权,感谢感谢🙏)】

复刻这个百万播放的“巨物”片段需要多少步?

放在之前,我大概率过先一遍 DALLE3,再尝试用 Flux 还原,折腾个把小时,然后把一个1000字的提示语搬上来。

而现在,我会告诉你把提示语忘了吧,这只需要两张图片。

也就是说卡比兽还能出现在更多的地方:

疑似卡比兽推到比萨斜塔证据流出

卡比兽撑比萨斜塔
卡比兽出现在圣诞街头

还可以是别的动画角色:

阿童木在伦敦大街收圣诞礼物

甚至可以不止一种材质:

卡比兽胸针

这就是最近几天我使用频率最高的生图工具:

Whisk

操作界面相当简单

Whisk,一款 Google 用来秀肌肉的创意工具。原理相当朴素,但非常有用。

背后的逻辑是 Gemini 根据用户上传图片来生成图片的详细描述,然后自动使用这个描述通过 Imagen3 生成一张“能抓重点”的图。

使用地址🔗:https://labs.google/fx/zh/tools/whisk

听着简单,但在这之前想要实现指定主体的一致性,还真美那么容易。

之前,想要将动漫角色“拖进”真实世界的话,一是靠蒙,用不同的词去测模型是不是知道这个角色:

这种依靠提示词生成的角色,像,但又没那么像,总是觉得哪里怪怪的。

二是训练 LoRA,也就是用特定角色的图片素材,对基础模型进行微调。进而让模型掌握这个角色的样貌、体态等特征。这样你就不需要拿着词语碰运气,相当于自己造了一个模型能懂的词。

机会难得,今天我就要用 Whisk 和可灵1.6,跟童年里的动漫角色来个大合照。

为什么会有这个idea呢?

因为我发现虽然 Whisk 限制场景和风格只能有一张参考图片,但主体图片的格子可以“无限”叠加。

先来一张宝可梦合照

这次它们变成大型瓷娃娃了,而且左下角还多出了两个我没有输入的角色。

如果我一口气加入14个角色,Whisk还 hold 得住吗?

这里要额外提一下 Whisk 的好处,素材都是可以复用的,省去了多次上传。

答案揭晓!

可以看到大部分的角色还是很稳定的,但是角色一多起来,偶尔会有角色颜色融合等等问题。但好就好在,它即使融合了,风格也还是稳定,甚至能达到以假乱真的程度。

三二一,茄子!说实话,14个角色已经能覆盖一步动画里我喜欢的主要角色了。

图ready了之后,想进一步转成视频就更见简单了,

上可灵!之前我还用可灵做了一个一张图片百人同时挥手的挑战,没想到那么快就用上了

100镜实测可灵1.6新版本,超大幅度女团群舞都能做了!

随着角色的增加,也会有那么几次没有抓住特点,这时候可以通过修改提示语来进行“二次修改”。

前面有提到,Whisk 是通过 Gemini 理解图片生成提示语,然后让 Imagen3 生成。

这个过程里生成出来的超长提示词,也没藏着捏着。

而是水灵灵地放在了图片下方,

连巴士是55号都单独记住了

而且,我注意到一点:同一张图片当做“主题、场景、风格”的输入时,输出的提示语都不一样。我们再来看一个标准一点的提示语。

PS:角色越多,提示语的格式反而没那么标准,估计是做了压缩

如果把动漫角色作为主题图片,Whisk 会详细地描述他的外貌特征,

石雕卡比兽推到比萨斜塔
(部分摘要)一个巨大、毛绒绒的 Snorlax 神奇宝贝玩具,以浅米色为主,配以蓝色点缀,推动着比萨斜塔。Snorlax的脸很安详,闭着眼睛,微笑着。 

而将把角色图作为风格参考,Whisk 将会描述这张图的色彩、光线、线条。

那在这样的情况下,我用卡比兽作为主要角色图,然后用可达鸭作为风格图的话,会发生什么呢?

那就是……

卡比兽变色啦!
(部分摘要)以饱和的黄色为主色调,用细微的阴影来暗示其纹理。以产品为中心,色调有限,突出了 “橘子 ”饱和的黄色。

对比上面生成的卡比兽,这次的卡比兽变得更黄了一点,这抹黄就是可达鸭带来的!

看到这个效果,是不是能够理解一点这其中的生成逻辑了呢?

小遗憾的是,

也因为 Whisk 是先通过 Gemini 理解,再由 Imagen3 生成,这不可避免的带来一定的信息损失,

如果用真人当作主体输入的话,

你会发现人脸跟原图不太一致,都变成了别的脸

马斯克和奥特曼的脸都变了

而上述这一系列生成图片的操作,我们几乎没有用过对主体的描述性提示词。

也就是说,在whisk中,我们不再需要告诉它我要的这个人物长相如何,穿着如何,年龄如何,也不需要在赘述在一个什么季节,什么地点什么氛围的环境中。只要我们有参考图,这一切的一切都可以被省略。

我的双手又一次的被解放了。


 写在最后 

AI绘图这个领域,到目前为止,相对比其他AI创作领域,是发展时间较长的一类了。

但似乎,有很长的一段时间,

都很少看到有更新鲜有趣的新功能出现。

直到,whisk的出现。

我们都知道,做同类型功能的迭代其实并不容易,功能需要越来越强,效果需要越来越好。

但在所有人都做同样的东西时,

创意就显得尤为重要。

那将激起摇摇欲坠的创作希望,

将引领一众鲜活的、热血的作品出现,

那是,一切的基石,

就像,AI刚刚开始那样。

@ 作者 / 卡尔 & 阿汤@ 动手学AI知识库 / learnprompt.pro


(文:卡尔的AI沃茨)

欢迎分享

发表评论