阶跃星辰开源“AI版PS”-Step1X-Edit，媲美GPT-4o

作者｜沐风

来源｜AI先锋官

前两天，OpenAI刚刚开源了AI生图模型GPT-image-1，紧接着，阶跃星辰就上线并开源了与GPT-4o和Gemini2 Flash等闭源模型相当的的图像编辑模型Step1X-Edit。

你可以用它新增、删除图片中的目标，换句话说，它其实就是“开源AI版Adobe Photoshop”

并且，阶跃星辰将Step1X-Edit的论文、模型、代码、评测数据集一次性全部放出来来了。

现在登录阶跃AI官网（stepfun.com）或App即可使用。

在针对自然语言图像编辑任务，Step1X-Edit具备以下核心能力：

语义精准解析：支持自然语言描述的复杂组合指令，指令无需模板，能够灵活应对多轮、多任务编辑需求，同时支持对图像中文字进行识别、替换与重构；

身份一致性保持：编辑后能稳定保留人脸、姿态与身份特征；

高精度区域级控制：支持对指定区域进行文字、材质、色彩等定向编辑，保持图像风格统一。

据介绍，Step1X-Edit首次在开源体系中实现MLLM与DiT的深度融合。

MLLM 模块负责处理自然语言指令与图像内容，具备多模态语义理解能力，可将复杂编辑需求解析为latent控制信号；

Diffusion模块再根据MLLM生成的latent信号完成图像的重构或局部修改，确保图像细节保真与风格统一。

这一结构使得模型在编辑精度与图像保真度上实现大幅提升，换句话说就是“听得懂、改得准、保得住”。

为了训练模型，阶跃星辰构建了一个高质量的数据集，共生成2000万条图文指令三元组，最终保留样本超过100万条。

数据覆盖11类高频图像编辑任务类型，包括文字替换、风格迁移、材质变换、人物修图等需求。

另外，阶跃星辰还开发了一个植根于真实世界用户指令的新型基准测试GEdit-Bench。

基于该基准，在语义一致性、图像质量与综合得分三项指标上，评测了包括开源模型（Instruct-Pix2Pix、MagicBrush、AnyEdit、OmniGen）和闭源模型（GPT-4o、豆包、Gemini 2.0 Flash）。

针对闭源模型（如GPT-4o）因安全策略拒绝部分指令的情况，报告分为两类测试结果，分别为：

交集子集：所有模型均成功返回结果的样本

全集：基准中所有样本（仅统计模型成功生成的案例）。

测试结果表明，Step1X-Edit在11个评估维度上全面超越开源模型，比肩GPT-4o、豆包和Gemini 2.0 Flash。

同时，为全面测试多语言能力，每个样本均配对了中英文指令：

在中文指令测试集（GEdit-Bench-CN）中，Step1X-Edit表现稳定，部分指标超越Gemini 2.0 Flash和豆包。

官方也放出了Step1X-Edit与多个的模型（豆包、Gemini、GPT-4o）在相同输入下的图像编辑效果。

可以发现：Step1X-Edit的图像编辑效果更好，生成的图像更自然一些。

当然，小编还是更倾向与实际体验，所以这就让它来改几张图试试。

左为原图，右为Step1X-Edit修改图

提示词：给小姐姐脖子上增加一条适合她的项链

提示词：去除图片中人物脖子上的项链

提示词：将图片中的小熊形状的月饼更换为小兔子形状

提示词：将图片里的场景改为“草原”

提示词：将头发从自然披散改为马尾辫

提示词：将图片改为像素风格

提示词：将图片中的小男孩改为女孩，头发自然披散至肩部，吉卜力风格

整体看起来相当不错。

不过，小编建议，在修改图片时将你的需求尽量写详细，不然的话……如下。

提示词：将图片中的小男孩改为女孩

（文：AI先锋官）