前段时间,OpenAI的GPT-4o图像生成功能一经发布风靡全球,成为本年度最火的应用之一,AI不仅能生图,还能实现用户提出的多步骤编辑需求。
AI图像生成、图像编辑以及图像变体等功能的综合实现,把AI生图工具的实用性提升到了新水平,但是OpenAI的图像生成要价并不便宜,每张图片的预计生成成本根据质量不同要0.02美元到0.25美元不等。
日前,开源的工具终于来了,来自国内“AI六小虎”之一的阶跃星辰团队推出了一个通用图像编辑实用框架Step1X-Edit得到不少开发者关注,该团队称能够提供与GPT-4o和Gemini2 Flash等闭源模型相媲美的性能,性能大幅超越了现有的开源基线。
有网友实测后表示:“这可能是目前最好用的开源图像编辑器,令人印象深刻。”
使用自然语言指令进行图像编辑已成为当下AI视觉-语言研究中的一个主流任务场景。
其中的关键技术挑战主要包括:理解细微的语义、精确地定位要编辑的区域以及保持图像的保真度。
OpenAI的GPT-4o系统利用大规模视觉-语言建模能力,在各种不同场景下进行高保真度的编辑,然而,其闭源性质限制了可重复性和透明度,不少开发者团队还对其进行过逆向工程剖析。
在Step1X-Edit的开发中,为了解决图像编辑问题,研究人员首先构建了一个大规模的高质量训练数据集,根据常用的编辑指令确定了11个主要的编辑任务类别,生成了超过10万条高质量训练数据。
基于这个数据集,他们提出了图像编辑模型Step1X-Edit,包含三个关键组件:一个多媒体大语言模型(MLLM)、一个连接模块和一个基于Transformer的扩散模型(DiT),将语义推理能力与扩散架构进行了结合。
为了评估现有的编辑模型,研究人员还引入了一个名为GEdit – Bench的新基准测试来确保模型既符合现实世界的编辑需求,又保证编辑提示的多样性。Step1X-Edit在该基准上的三项核心指标中领先现有开源模型,表现已非常接近GPT-4o,只是小数点之后存在一些分值差别,具体到图像可能会有细微差异。
在这项工作中,研究人员还设计了一个数据生成流程,用于生成高质量的图像编辑数据,可为从事类似项目的研究人员和开发者提供参考。
Step1X-Edit能够在各种不同的编辑目标下,实现可扩展的、交互式的且忠实于指令的图像编辑,在图像编辑的11个细分任务中,Step1X-Edit始终维持较好的质量输出,能力分布也相对均衡。
在处理GEdit-Bench-CN基准测试中的中文编辑指令时,部分性能甚至超过了豆包,而且在编辑过程中无需使用掩码。
基于Step1X-Edit,开发者可一句话对图像进行如文字替换、风格迁移、材质变换、人物修图等操作。
开发人员表示,Step1X-Edit针对自然语言图像编辑任务,具备以下核心能力:
语义精准解析:支持自然语言描述的复杂组合指令,指令无需模板,能够灵活应对多轮、多任务编辑需求,同时支持对图像中文字进行识别、替换与重构;

身份一致性保持:编辑后能稳定保留人脸、姿态与身份特征,适用于虚拟人、电商模特、社交图像等高一致性场景;
高精度区域级控制:支持对指定区域进行文字、材质、色彩等定向编辑,保持图像风格统一,控制能力更精细。
手速快的开发者已经将Step1X-Edit集成到自己公司的产品中,可以通过简单的指令将照片转换成令人惊叹的专业品质的编辑,与顶级专有工具相媲美,绝对比OpenAI省。
Step1X-Edit采用MLLM(Multimodal LLM)+ Diffusion 的解耦式架构,相比现有的一些开源图像编辑模型,架构在实际指令的泛化能力与图像可控性上表现更加出色。
最后,PK一下GPT-4o图像生成最火的“吉卜力”风格图,Step1X-Edit也能搞定,不过貌似输出的图像细节和质感上还是有不少的改进空间。
而GPT-4o图像生成之所以会火,是因为可以高度还原吉卜力工作室作品细腻的手绘、自然通透且色彩饱和度高的强层次感画面,相对比较传神,这是开源模型要继续努力的方向,比如同样是根据网图生成一只猫。
得益于技术的持续进步,AI生图市场规模呈现迅猛增长态势,成为生成式人工智能产业的重要组成。
据Grand View Research数据,2023年中国AI图像生成器市场收入为3090万美元,预计到2030年将达到9960万美元,2024-2030年期间的复合年增长率高达 18.2%。
从全球范围看,国际AI图像生成器市场规模预计将达到608亿美元,由谷歌、OpenAI等AI巨头主导的先进模型支撑,让技术不断成熟、应用场景持续拓展,未来几年AI生图市场有望保持高速增长,在全球数字经济中占据愈发重要的地位。
应用场景方面,AI生图可能会对影视与动漫制作、游戏开发、广告营销、创意设计、艺术创作、教育、建筑等行业造成进一步冲击与变革。
随着模型性能持续提升,未来AI生成图像的质量更逼真、逻辑更严谨、风格更多样,多模态融合进一步深化,结合文本、图像、视频、音频等多种信息,有望实现更复杂、智能的AI创作。
商业模式除现有付费使用、订阅服务外,未来可能也会出现基于图像版权交易、增值服务等新的盈利模式。
整体来看,Step1X-Edit展现了开源领域在AI生图技术领域的发展潜力,可能会给市场带来一些新的竞争变量,把较高的成本和价格往下打一打。
(文:头部科技)