
新智元报道
新智元报道
【新智元导读】豆包的一句话P图功能,又进化了!各种高考祝福、网络梗图、大片级精修、设计师草稿,无不是信手拈来。此刻,AI P图再次迎来降维打击,只要用自然语言,就能实现精准的图片编辑。可以说,AI修图终于来到了3.0时代!
高考第一天就这么来了!莘莘学子们离解放的日子,也只剩不到三天。
祝广大考生文曲星附体,逢考必过,心想事成!

如今,回忆起当年的场景,有没有想过直接穿越到霍格沃茨的魔法世界?

还是未来的赛博朋克世界?

话说,现在P图已经进化成这样了吗?
说句话,图就自己变了!


轻描淡写一句「天空换成夕阳」,早晨的城市公园瞬间铺满温柔的晚霞
虽说用AI来P图已经是稀松平常,但在这次用过豆包AI最新版本智能修图后,真的有被征服,只剩下一个感受——稳!太稳了!
不论是精准的在图像上编辑文字。

张伯伦拿着100分照片的梗图,秒变高考祝福
还是局部图像任意修改细节。
豆包在精细且自然地处理编辑区域的同时,都能高保真地维持其他信息。


这次豆包的能力提升主要得益于图像编辑模型SeedEdit 3.0全量上线。
经过两个版本的迭代,豆包AI智能生图直接化身你个人专属的P图专家。

爱因斯坦在上海
一秒入古画,人在画中游

将衣服和发型换成大人模样
而且,操作起来既然不用纠结细节,也无需学习复杂的软件界面。
你只需要一句简单的指令,便能看到想象力如何被一键点亮。

一直以来,AI在图像编辑领域都有个很难过去的坎——在图片中「准确地」添加文字。
举个例子,比如我们想在眼镜左镜片上添加文字「暴」,右镜片上添加文字「富」。
这时,模型不仅需要完全理解图片(找到墨镜),并且还要理解要添加的文字(别认错字)。

对于这项任务,即使是国外的扛把子ChatGPT,翻车也是常态。尤其,是在处理中文时。
比如将图中的「暴富」换成「发财」,ChatGPT两个字都打错了。

相比之下,豆包就能完美达成。

改文案、做海报,简直是打工人神器,以后编辑图片不用再求人了。

将界面改为手机点餐app的UI,移除人像,将「Shop」「Spring Sale Up to 50% Off」「Clothing」「Shoes」「Accessories」「Home」「Wireless Eardus」「Woman Hat」「Brejan Sweater」「Sneakers」「-20% On select items」「New Arrivals」等文字改成餐饮相关的
这次带来的另一个「神器」功能,就是局部修改PS。
比如,我们可以把乔帮主抱着的苹果电脑换成最新版的MacBook。

或者把手里的iPhone换成字面意思上的苹果。

如此没有违和感的成片,说声「PS大神」不为过吧!
豆包这次升级另外一个看点就是可以进行图片整体风格迁移,比如将人物直接放入拍立得相框。
这下,再也不担心女朋友的要求了。



豆包上的AI生图,为何进化到了如此强大的地步?
这就不得不提它背后的模型——SeedEdit 3.0了。
要知道,之前的图像编辑模型,往往存在这样一个令人头疼的通病——
在保留图像主体和背景、精准执行编辑指令方面表现不佳,导致生成结果可控性差、成品率低,难以满足真实应用需求。
而SeedEdit 3.0通过引入多源数据融合策略与定制化奖励机制,成功突破了这一瓶颈。
无论是主体还原、背景一致性,还是细节保真度,SeedEdit 3.0均实现大幅提升。
尤其在人像美化、场景替换、视角调整与光影变化等复杂编辑任务中,展现出了让人印象极其深刻的稳定性与真实感。
可以看到,如今在SeedEdit 3.0加持下的豆包已经不单单局限于日常P图,更是变成了设计师们的工作利器。
比如,在花瓶的瓶身上画上花纹,将花瓶上色成青花瓷,并变成真实花瓶。

再比如,将图片里的四种花上色,并摆放在同一个精美的玻璃瓶里,玻璃瓶置于客厅的窗台上,去掉标注的文字,变为写实摄影图片。

之所以能有如此表现,正是因为团队在 SeedEdit 3.0的研发工作中提出了一种高效的数据融合策略,并构建了多种专用奖励模型。
通过将这些奖励模型与扩散模型联合训练,团队针对性地改善了关键任务的编辑质量(如人脸对齐、文本渲染等)。在落地时也对推理加速进行了同步优化。
从上面这些实测中不难看出,SeedEdit 3.0对非编辑区域的保持能力很强——既能留住细节,又能兼顾美感。
在实测过程中,豆包的另一个令人印象深刻之处就是:P起图来,它怎么那么会!
让照片中的人物头戴簪花,衣服换成惠安民族服装,背景替换为福建海边。
这是三个要求,不仅要找到人物,还要定位服装,最后还要识别背景。
而豆包都完美做到了。

这当然也要归功于SeedEdit 3.0。
要知道,图像编辑任务训练的另一大关键,就是让模型听懂指令,区分出哪里需要变,哪里需要不变。
为此,团队专门开发了一套增强型数据融合策略,构建了合成数据集、编辑专家数据、传统人工编辑操作、视频帧与多镜头几个类别的数据。

基于上述数据,研究者促使扩散模型在真实数据与合成的「输入-输出编辑空间」进行交错学习,提高对真实图片的编辑效果。
就这样,对于编辑图像时的难题——「哪里改,哪里不改」,SeedEdit 3.0都表现出了更佳的理解力和权衡力。
再加上豆包APP的超强图片编辑能力,用AI来P图真正做到了「言出法随」。

还有比如这张,原图是哪吒和敖丙在实验室里做果汁。我们要求p成背景在高考考场,豆包就很好地领会到了。

就算是细节拉满的promt,豆包也能轻松get。
把照片改成插画风格,女生骑坐在一条可爱的卡通红金鱼身上,金鱼眼睛大且灵动,鱼鳍、鱼尾色彩鲜艳,背景是橙红色放射状渐变并带白色线条装饰,上方有黄橙渐变卡通字「一定高中」,底部是蓝白色海浪图案。

值得一提的是,这次豆包P图保留的人脸细腻质感,实在令人赞叹不已。

这就要归功于,SeedEdit 3.0团队对于模型细节上的提升。
他们还沿用了此前验证过的框架:底层使用视觉理解模型,顶层采用因果扩散网络,并在扩散过程中重新引入图像编码器。然后在视觉理解模型与扩散模型之间,加入一条连接,用于将前者获取的编辑推理信息与后者对齐。

改造完成后的SeedEdit 3.0结构
由此,人脸与物体特征这类细节保留显著提升。
最后,在训练和推理加速上,SeedEdit 3.0还融合了蒸馏模型方法、CFG蒸馏、统一噪声参照、自适应时间步采样等多个加速方法,实现了10秒级的推理。
在未来,团队还将探索更丰富的编辑操作,让大家创意爆棚,灵感爆棚。

随着图像生成的质量越来越高,AI生图也开始从「玩具」逐渐进化成真正的生产力工具。
与此同时,用户的需求也早已不局限在生图这个单一的场景中。这一点,从GPT-4o「魔改吉卜力风」一夜火爆全网,便不难看出。
现在,在AI修图迈入3.0时代的今天,豆包SeedEdit 3.0不仅打破了传统P图工具的门槛,更真正将「所见即所得」升级为「所想即所得」。
不论是图中文字编辑、局部精修、风格迁移,还是超写实建模与视觉美学体验,它都做到了「稳准狠」——稳在每一次操作都可复现,准在每一句指令都能精准理解,狠在生成效果足以媲美专业级修图师。
在这个大家都希望AI「言出法随」的时代,你只需动动嘴,剩下的交给AI。
现在,是时候告别繁琐,拥抱想象力的无限可能了。
(文:新智元)