ChatGPT4o修图平替:开源ICEdit(附工作流)

最近被ChatGPT4o自然语言修图功能刷屏,我也生成了很多吉卜力风格的动漫图片。

比如我跑马拉松的照片:

比如我和银河合影的照片:

不过,ChatGPT4o免费版一天只能生成3张图片,付费价格并不便宜,如果不是高强度使用,充值不太划算。

如今,浙江大学和哈佛大学团队推出了免费开源的ICEdit,实现了近乎完美的平替效果。

一、论文

我们提出 ICEdit 框架,一种高效且有效的基于指令的图像编辑方案。相比现有方法,仅需 1% 可训练参数(2 亿)和 0.1% 训练数据(5 万),ICEdit 即展现出强大的泛化能力,可处理多样化编辑任务。

与 Gemini、GPT4o 等商业模型相比,我们更加开源、成本更低、速度更快(单张图像处理仅需约 9 秒),且性能强大 。

摘要

基于指令的图像编辑技术通过自然语言提示实现强大的图像修改能力,但现有方法面临精度与效率的权衡问题。微调方法需要大量计算资源和数据集,而无训练技术则在指令理解和编辑质量上存在不足。我们通过利用大规模扩散 Transformer(DiT)的增强生成能力和原生上下文感知特性解决了这一困境。我们的解决方案提出三大创新:(1) 采用上下文提示的零样本指令遵从框架,实现免结构修改的上下文编辑;(2) 提出 LoRA-MoE 混合调优策略,通过高效适配和动态专家路由增强灵活性,无需大规模重训练;(3) 开发基于视觉语言模型(VLM)的早期过滤推理时缩放方法,提前筛选更优初始噪声以提升编辑质量。大量实验表明,本方法仅需基线模型 0.1%的训练数据和 1%的可训练参数,即能超越现有最优方法。 本研究建立了一种新范式,能够实现高精度且高效的指令引导编辑。

它是如何工作的?

我们基于 DiTs(如 FLUX)实现了一种免训练的情境编辑范式,模型通过处理”情境提示”与源图像(双联画左幅)共同生成编辑输出(右幅)。虽然仍存在持续性失败案例,但所实现的优势建立了一个稳健基线,有助于通过高效微调提升精度。我们在 DiT 框架内实现了参数高效的 LoRA 适配器与专家混合(MoE)路由机制,能在编辑过程中动态激活任务特定专家。仅使用少量公开数据(5 万)训练,无需架构修改或大规模重训练即可提升多场景下的编辑成功率。我们还设计了推理时缩放策略以提升编辑质量。详情请参阅论文。

泛化能力


与商业模型的比较


与 Gemini 和 GPT-4O 等商业模型相比,我们的方法在角色 ID 保持和指令遵循方面与这些商业模型相当甚至更优。我们比它们更加开源,成本更低,速度更快(处理一张图像仅需约 9 秒),且性能强大。

与最先进方法的比较

免责声明


我们将本项目开源供学术研究使用。项目中使用的绝大多数图像 均为生成图像或已获授权图像。如有任何疑虑, 请随时联系我们,我们将立即移除任何不当内容。 任何与 FLUX 相关的模型 基础模型必须遵守原始许可条款。

本研究旨在推动生成式 AI 领域的发展。用户可以自由使用, 通过此工具创建图像,但需遵守当地法律并践行 负责任的使用准则。开发者对用户滥用工具的行为概不负责。

二、模型下载和安装

1、网盘下载(含工作流)

https://pan.quark.cn/s/dcdb028ebe01

2、模型安装

ICEdit模型,安装在Flux模型路径下即可

ComfyUI\models\unet

三、工作流

输入部分

上传原图,然后输入需要修图的内容。

举例:

风格转换:

convert the image into anime illustration

更一致的风格转换,增加对原图的描述:

convert the image into anime illustration and maintain shirt be pink,hair be brown,

修改服装颜色:

change the pink shirt to blue shirt

修改服装类型:

change the pink shirt to blue suite

小幅度修改姿态:

make the girl eyes closed

修改物品:

change the glasses to sunglasses

增加物品:

This girl wears a white watch

移除物品:

remove picture on the wall

去除文字:

remove the text “GalaxyRover”

去除水印:

remove the white watermark

增加水印:

add a red watermark “GalaxyRover” on the wall

修改背景:

girl is on the beach,colorful cloud in the sky

模型配置部分:

划重点:模型必须选择本文提供下载的ICEdit模型,请不要使用普通的Flux模型。

另外,目前该功能只支持修改宽度为512的图片(长度不限),修图前请先将图片调整为512*XXXX,修完后再用放大工作流放大即可。

三、跑图效果

1、转成漫画风格

cconvert the image into anime illustration

2、转成漫画风格并更换衣服、头发颜色

convert the image into anime illustration and maintain shirt be pink,hair be brown,


3、变更衣服颜色和款式

Please change the clothes to a coffee-colored T-shirt.

4、修改背景

girl is on the beach,colorful cloud in the sky

网盘下载(含工作流)

https://pan.quark.cn/s/dcdb028ebe01



(文:路过银河AI)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往