自家萌宠拜年都能生成?百度生图技术突破“准确性”最后一公里

百度自研iRAG,给模型加装亿级“视觉外挂知识库”。
作者 |  陈骏达
编辑 |  漠影
农历新年将至,各大互联网平台纷纷上线了春节营销活动。除了集“五福”、集卡等经典玩法之外,今年也有不少与AI结合的新玩法出现,百度搜索就推出了“AI拜年”活动。
现在,只需要在百度搜索“祝福语”,再点击“做贺卡”,按照自己的需求调整文案后,选择“创意照片”,就能定制各种脑洞大开、趣味十足的新年祝福卡片。

比如,你可以将自己的证件照上传,制作成一张在天坛前的专属的拜年海报。

在文心一言4.0中,你还可以将家里的宠物照上传,生成一张年味儿十足的“萌宠贺岁图”。

可以看到,AI不仅理解并准确呈现了文字提示词中涉及的“福字”、“农家院”等文化元素,还将用户上传的宠物照、人像自然地融合进生成结果,生成效果与实际照片的契合度也很高。
这一生成效果得益于百度研发的iRAG(检索增强的文生图技术)。这项技术给大模型装上了一个亿级的“视觉外挂知识库”,在生成图片时根据提示词等信息给大模型查找相关图片资源,作为参考数据,进而提升图像生成的准确性,还可降低制作成本。
接下来,就让我们来看看,这一充满节日氛围的AI营销背后,究竟蕴藏着什么样的技术实力?

01.
大模型深入理解中华文化,
精准生成名胜古迹与文化元素


在文心4.0中,我们进一步体验了“AI拜年”背后强大的生图能力。让人最眼前一亮的是,它展现出了对各种文化要素的精确理解。
例如,用户可以让文心4.0生成一幅“天坛雪景图”,要求体现蓝瓦屋顶和精美木结构的建筑风格,以及雪后静谧的氛围。
仅需等上几秒,文心4.0就完成了图像的生成。图像内容与天坛的实际形象基本符合,准确度较高。

而当其它的生图模型接到这一任务时,却出现了较为明显的幻觉问题。下图左侧的ideogram-v2将天坛的层数生成错了,而右侧的imagen-3.0生成的天坛与周边建筑和景观的比例不符合实际情况。

同样的,我们还能让文心4.0生成一幅“春节庙会”的场景,并指定其体现红灯笼、舞龙舞狮、糖画等传统元素。

对于中国传统的民俗艺术,文心4.0也能准确把握到其风格特点。这副剪纸画从颜色到风格上,都符合中国传统审美。

相同的提示词到了其它生图模型上,生成的风格完全不符合预期。左侧的结果虽然尝试还原传统剪纸艺术,但鱼的线条显得生硬,缺乏灵动感。而右侧的画面则过于现代,颜色选择也失去了剪纸艺术的精髓。

除此之外,AI拜年功能和文心4.0都支持图生图的定制化玩法,可玩性很强,用户几乎可以将任意照片上传,生成专属的图像。
将这只高冷的雪鸮交给文心4.0,它就能让雪鸮穿上年味十足的服饰。

用户也能把自己随手拍的白塔,搬到江南水乡。文心的融合结果毫无违和感,白塔的细节全都得到保留。


02.
iRAG给大模型加装知识库,
无缝衔接现实世界


上方案例中,文心4.0在生图任务中实现的高准确性、几乎无幻觉的表现,与背后百度自研的iRAG技术密不可分。
传统文生图模型在生成图像时,往往依赖于模型自身的生成能力和有限的训练数据,缺乏对特定文化元素和现实细节的精准把握,很容易生成不符合事实或逻辑的图像,也无法覆盖丰富的现实世界和多样化的场景需求。
百度则将已经在文字生成领域经受住可行性验证的RAG(检索增强生成)技术,引入图像领域,发展出iRAG技术,显著提升生成内容的可靠性和准确性。
iRAG技术就仿佛给大模型加装了一个“视觉外挂知识库”,让大模型能更好地理解用户在指令中提及的“天坛”、“白塔”、“庙会”到底应该是一副怎样的画面。
百度搜索收录了海量特定事物的可信图片资源,这些资源通过iRAG技术,与文心4.0模型的能力结合,用丰富的参考数据确保生成图像的真实可靠。
此外,这种生成与检索结合的技术路径,也能从多方面节省成本。iRAG让模型不需要完全依靠自身知识生成图像,减少了对大规模训练数据的需求。同时,使用了iRAG技术的图像生成“命中率”更高,从而减少修正和重新生成的需求,提高了整体效率。
同时,由于外部的数据库可以实现更为及时的更新,iRAG能让大模型始终保持对最新信息的敏感性和准确性,进一步提升成本效益和用户体验。
这种在准确性、成本效益方面实现的显著进展,标志着AI生图从娱乐工具向实用工具的本质转变。

03.
iRAG技术潜力显现,
或将推动AI生图广泛落地


自生成式AI浪潮兴起后,图像生成就一直是各大AI玩家发力的重点方向。这一赛道中既有Stable Diffusion这样的开源模型,也有DALL·E、Imagen等来自巨头的专有模型。这些模型凭借高度定制化的体验和解放用户视觉创意表达的潜力,吸引了不少个人与企业用户的使用。
然而,在众多生图模型落地具体生产场景时,准确性是困扰用户的关键问题。不准确的图像需要反复修改或重新生成,不仅耗费时间和资源,还会降低生产效率;AI生成的错误产品图片,还可能会影响客户的购买意愿;更严重的是,错误或不当的图像可能损害企业品牌形象,甚至引发法律纠纷,给企业带来额外的风险。
而iRAG在准确性、成本效益上的优势,恰好回应了专业用户使用生图模型时的种种痛点。这意味着这项技术不仅能应用于“AI拜年”这种娱乐性较强的营销场景中,还具备影视制作、广告设计、电子商务等更为广阔的想象空间。
在去年的百度世界大会上,百度创始人李彦宏便展示了一张大众汽车飞跃长城的画面。图中汽车的细节与真车别无二致,甚至还生成了汽车腾空而起时的烟尘。

过去拍摄这样一组汽车在特定场景的高质量宣传海报,成本往往高达一二十万甚至更多,而现在借助iRAG技术,创作成本几乎可以忽略不计。
在电子商务场景中,iRAG可以用于提升产品展示的效果和用户体验。通过生成高质量、逼真的产品图像,iRAG能够帮助商家快速创建吸引眼球的商品展示页面。
例如,商家上传一张普通的产品照片,便可利用iRAG生成多场景的产品展示图,甚至可以根据用户需求添加节日元素或个性化背景。

iRAG让商家无需实地拍摄,或是进行复杂的后期工作,也能获取制作精良的宣传物料。对中小商家来说,这项技术有望成为提高购买转化率,带来更高的流量和销售额的利器。
在漫画作品、连续画本等视觉创意工作中,iRAG在一致性上的优势,也能将创意人员从繁琐的工作中解放出来,不必再花费大量时间在重复性的绘制和修改上,而是可以将大部分精力都投入到故事构思、角色塑造和艺术表达等更具创造性的核心环节中。

04.
结语:iRAG技术有望
开启视觉创作新时代


具备低成本、低门槛、高准确性等优势的iRAG生图技术,有望为各行各业的视觉创作流程带来重大变化。
想象一下,卖煎饼的老板也能轻松设计出高级感十足的菜单,小型企业无需依赖专业设计师即可打造品牌形象,教育机构可以快速生成生动的教学素材……
iRAG技术的潜力不仅限于提升效率,更在于让创意和设计变得触手可及,赋能每一个普通人和行业从业者。

(文:智东西)

欢迎分享

发表评论