港科大和字节跳动:开源自然语言P图框架ComfyMind

论文摘要:

随着生成模型的迅速发展,通用生成方法因其能够在一个系统中统一跨模态的多种任务而受到了越来越多的关注。尽管取得了这些进展,现有的开源框架往往仍然脆弱,难以支持复杂的现实世界应用,主要是因为缺乏结构化的流程规划和执行层面的反馈。为了解决这些限制,我们提出了 ComfyMind,这是一种协作型 AI 系统,旨在实现稳健且可扩展的通用生成,基于 ComfyUI 平台构建。ComfyMind 引入了两项核心创新:语义工作流接口(SWI),它将低级节点图抽象为用自然语言描述的可调用功能模块,从而实现高级组合并减少结构错误;搜索树规划机制,带有局部反馈执行,将生成建模为一个分层决策过程,并允许在每个阶段进行自适应纠正。这些组件共同提高了复杂生成工作流的稳定性和灵活性。 我们在三个公开基准上评估了 ComfyMind:ComfyBench、GenEval 和 Reason-Edit,这些基准涵盖了生成、编辑和推理任务。结果显示,ComfyMind 在所有任务上都优于现有的开源基线,并且在性能上与 GPT-Image-1 相当。ComfyMind 为开源通用生成 AI 系统的开发铺平了一条有希望的道路。

Text-to-Image Generation
文本到图像生成


Generate an image of a hot air balloon floating over a scenic valley at sunrise.
生成一幅热气球在日出时漂浮在风景谷地上的图片。

Generate an image of a cat sitting on a windowsill looking outside.
生成一张猫坐在窗台上看外面的图片。

Generate an image of a small village covered in snow with smoke coming from chimneys.
生成一幅被雪覆盖的小村庄的图片,烟囱中冒着烟。

Generate an image of a beach at sunset with waves gently crashing on the shore.
生成一幅夕阳下的海滩图像,海浪轻轻地拍打着岸边。

Generate an image of a mountain landscape with snow-capped peaks and a river flowing below.
生成一张雪山顶峰和河流流过的山地景观图片



Reasoning Generation 推理生成
Generate an image that represents a winter sport in Switzerland
生成一张代表瑞士冬季运动的图片

A winter sport often enjoyed in Switzerland, involving snow covered slopes
一项常在瑞士享受的冬季运动,涉及被雪覆盖的斜坡
Create an image representing India’s most famous traditional craft
创作一幅代表印度最著名的传统工艺的图像

Most representative craft of India
印度最具代表性的手工艺
Visualize a famous Egyptian historical landmark
可视化一个著名的埃及历史地标


A massive stone statue of a mythical creature that is a prominent historical landmark in Egypt
一座巨大的石制神话生物雕像,是埃及的重要历史地标
Illustrate how an octopus reacts to danger
说明章鱼在遇到危险时的反应

Octopus behavior when facing danger
面对危险时章鱼的行为
Show what typically happens after a whale surfaces
鲸鱼浮出水面后通常会发生什么


Common behavior after a whale surfaces
鲸鱼浮出水面后的常见行为
Demonstrate light dispersion through a prism
通过棱镜演示光的色散

Light dispersion from a glass prism
玻璃棱镜的光散射
Visualize objects with different densities in water
在水中可视化不同密度的物体


A tennis ball and a iron block are in a transparent water tank
一个网球和一块铁块在一个透明的水箱中



Image Editing 图像编辑
Edit the image of a whole cake cake.jpg to make it look like a triangular corner piece has been cut out. The remaining cake should appear untouched and natural
将整个蛋糕的图片 cake.jpg 修改为看起来像是切掉了一个三角形角块,剩余的蛋糕应保持未受影响且自然的状态。

Reference 参考文献

Output 输出
Convert the cherries image into an advertisement version with exhibition stand lighting
将樱桃图片转换为使用展览照明的广告版本

Reference 参考文献

Output 输出
You are given an image man.jpg, which is a photo of a young man. Generate another photo to show the man as an elderly version of himself, with wrinkles, gray hair, and other signs of aging, while preserving his identity. The result should be a realistic image of an older man.
你得到了一张名为 man.jpg 的图片,这是一张年轻男子的照片。生成另一张照片,展示这位男子是他年老时的样子,带有皱纹、灰发和其他衰老的迹象,同时保留他的身份。结果应该是一张真实的老年男子的照片。


Reference 参考文献

Output 输出
You are given an image pigeon_scribble.png. Please according to the reference image, generate a ceramic texture cup with the reference image as the logo. The background is a office table.
你得到了一张图片 pigeon_scribble.png。请根据参考图片,生成一个带有参考图片作为 logo 的陶瓷纹理杯子。背景是一张办公桌。

Reference 参考文献

Output 输出
Based on the given reference images new_york.jpg, outpaint the image in left and right sides with both 512 pixels, and the prompt is: A spectacular view of New York City’s skyline at dusk
根据给定的参考图片 new_york.jpg,在左右两侧各扩展 512 像素,并提示如下:黄昏时分纽约市天际线的壮观景色

Reference 参考文献


Output 输出
Based on the given reference images castle.jpg, replace the castle in the image with Chineses traditional temple
根据给定的参考图片 castle.jpg,将图片中的城堡替换为中国的传统庙宇

Reference 参考文献


Output 输出
Based on the given reference images windmill.jpg, remove the windmill in the image
根据给定的参考图片 windmill.jpg,移除图片中的风车


Reference 参考文献

Output 输出
Based on the given reference images dinner.jpg, remove the knife and fork in the image
根据给定的参考图片 dinner.jpg,移除图片中的刀和叉


Pipeline Overview 管道概述

Overview of ComfyMind pipeline. Given a user instruction, the system first parses the task and delegates it to Planning Agent. The Agent incrementally explores a semantic search tree, where each node proposes a candidate workflow and receives local feedback based on execution results.
ComfyMind 管道概述。给定用户指令后,系统首先解析任务并将其委托给规划代理。代理逐步探索一个语义搜索树,其中每个节点提出一个候选工作流,并根据执行结果接收局部反馈。

PS,Kontext充值充早了… …



(文:路过银河AI)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往