作者|沐风
来源|AI先锋官
前两天,OpenAI刚刚开源了AI生图模型GPT-image-1,紧接着,阶跃星辰就上线并开源了与GPT-4o和Gemini2 Flash等闭源模型相当的的图像编辑模型Step1X-Edit。
你可以用它新增、删除图片中的目标,换句话说,它其实就是“开源AI版Adobe Photoshop”
并且,阶跃星辰将Step1X-Edit的论文、模型、代码、评测数据集一次性全部放出来来了。
现在登录阶跃AI官网(stepfun.com)或App即可使用。
在针对自然语言图像编辑任务,Step1X-Edit具备以下核心能力:
语义精准解析:支持自然语言描述的复杂组合指令,指令无需模板,能够灵活应对多轮、多任务编辑需求,同时支持对图像中文字进行识别、替换与重构;
身份一致性保持:编辑后能稳定保留人脸、姿态与身份特征;
高精度区域级控制:支持对指定区域进行文字、材质、色彩等定向编辑,保持图像风格统一。
据介绍,Step1X-Edit首次在开源体系中实现MLLM与DiT的深度融合。
MLLM 模块负责处理自然语言指令与图像内容,具备多模态语义理解能力,可将复杂编辑需求解析为latent控制信号;
Diffusion模块再根据MLLM生成的latent信号完成图像的重构或局部修改,确保图像细节保真与风格统一。
这一结构使得模型在编辑精度与图像保真度上实现大幅提升,换句话说就是“听得懂、改得准、保得住”。
为了训练模型,阶跃星辰构建了一个高质量的数据集,共生成2000万条图文指令三元组,最终保留样本超过100万条。
数据覆盖11类高频图像编辑任务类型,包括文字替换、风格迁移、材质变换、人物修图等需求。
另外,阶跃星辰还开发了一个植根于真实世界用户指令的新型基准测试GEdit-Bench。
基于该基准,在语义一致性、图像质量与综合得分三项指标上,评测了包括开源模型(Instruct-Pix2Pix、MagicBrush、AnyEdit、OmniGen)和闭源模型(GPT-4o、豆包、Gemini 2.0 Flash)。
针对闭源模型(如GPT-4o)因安全策略拒绝部分指令的情况,报告分为两类测试结果,分别为:
交集子集:所有模型均成功返回结果的样本
全集:基准中所有样本(仅统计模型成功生成的案例)。
测试结果表明,Step1X-Edit在11个评估维度上全面超越开源模型,比肩GPT-4o、豆包和Gemini 2.0 Flash。


同时,为全面测试多语言能力,每个样本均配对了中英文指令:


在中文指令测试集(GEdit-Bench-CN)中,Step1X-Edit表现稳定,部分指标超越Gemini 2.0 Flash和豆包。
官方也放出了Step1X-Edit与多个的模型(豆包、Gemini、GPT-4o)在相同输入下的图像编辑效果。


可以发现:Step1X-Edit的图像编辑效果更好,生成的图像更自然一些。
当然,小编还是更倾向与实际体验,所以这就让它来改几张图试试。
左为原图,右为Step1X-Edit修改图


提示词:给小姐姐脖子上增加一条适合她的项链


提示词:去除图片中人物脖子上的项链


提示词:将图片中的小熊形状的月饼更换为小兔子形状


提示词:将图片里的场景改为“草原”


提示词:将头发从自然披散改为马尾辫


提示词:将图片改为像素风格


提示词:将图片中的小男孩改为女孩,头发自然披散至肩部,吉卜力风格
整体看起来相当不错。
不过,小编建议,在修改图片时将你的需求尽量写详细,不然的话……如下。


提示词:将图片中的小男孩改为女孩
(文:AI先锋官)