一、项目概述
IDM-VTON,全称为“Improving Diffusion Models for Authentic Virtual Try-on in the Wild”,旨在通过改进扩散模型,实现真实世界场景中高质量的虚拟试穿图像生成。该项目由韩国科学技术院(KAIST)和OMNIOUS.AI的Yisol Choi、Sangkyung Kwak、Kyungmin Lee、Hyungwon Choi和Jinwoo Shin共同研发。其核心技术基于先进的扩散模型,通过精心设计的架构和算法,能够在复杂背景和多样姿势下,精准地将服装与人物进行融合,生成高度逼真的虚拟试穿图像。

二、功能特点
1. 高级语义融合
项目采用视觉编码器提取服装的高级语义信息,并将其融入扩散模型的交叉注意力层。这一机制使模型能够深入理解服装的风格、款式和特征,从而在生成虚拟试穿图像时,更好地保留服装的整体风格和细节特征。例如,在处理具有独特图案或设计的服装时,模型能够准确地捕捉并再现这些特征,使生成的图像更加真实可信。
2. 低级特征融合
为了弥补高级语义融合在细节保留上的不足,IDM-VTON引入了并行UNet结构来捕捉服装的低级特征,并将其与自注意力层相结合。这种方法专注于服装的局部细节,如纹理、褶皱和缝线等,确保在虚拟试穿图像中,这些细节能够得到精确呈现。无论是精细的丝绸质地还是粗糙的牛仔布料,模型都能通过低级特征融合,生动地展现出其独特的质感。
3. 文本提示增强
IDM-VTON充分利用文本提示的力量,为服装和人物图像提供详细的描述性文本。这些文本提示有助于模型更准确地理解用户的意图,从而生成更加符合期望的虚拟试穿图像。例如,用户可以通过文本描述服装的颜色、材质、风格以及人物的身材、姿态等信息,模型根据这些提示进行图像生成,实现更加个性化和精准的虚拟试穿效果。
4. 野外场景适应性
针对现实世界中复杂多变的场景,IDM-VTON进行了优化。无论是在繁华的街头、户外自然环境还是复杂的室内背景下,该技术都能有效地应对各种光照条件、背景干扰和人物姿势变化,生成高质量的虚拟试穿图像。这使得虚拟试穿技术不再局限于特定的场景或条件,能够真正应用于日常生活中的各种实际需求。
三、应用场景
1. 在线服装零售
在电商平台中,IDM-VTON技术可显著提升用户购物体验。消费者在浏览服装商品时,能够通过虚拟试穿功能直观地看到服装上身的效果,包括服装的合身程度、款式搭配以及在不同姿势下的呈现效果。这有助于减少因尺寸不合适或款式不符预期而导致的退货率,同时提高消费者对商品的信任度和购买意愿,促进销售增长。
2. 时尚展示与推广
对于时尚设计师和品牌而言,IDM-VTON是展示新系列服装的理想工具。通过生成精美的虚拟试穿图像和视频,品牌可以在社交媒体、官方网站等渠道进行展示,吸引更多潜在消费者的关注。虚拟试穿展示能够以更加生动、直观的方式呈现服装的设计理念和穿着效果,激发消费者的兴趣,为品牌推广和新品发布带来全新的创意和可能性。
3. 个性化推荐系统
结合用户的个性化偏好和历史数据,IDM-VTON能够为用户提供更加精准的服装推荐。通过分析用户的身材特征、时尚品味、购买记录以及浏览行为等多维度信息,系统可以筛选出符合用户喜好的服装款式,并利用虚拟试穿技术展示这些服装在用户身上的效果。这种个性化推荐不仅提高了推荐的准确性和实用性,还为用户节省了挑选服装的时间和精力,增强了用户对平台的粘性和忠诚度。
四、在线体验
IDM-VTON项目为用户提供了便捷的在线体验方式,通过Hugging Face平台的在线空间,用户无需进行复杂的本地安装和配置,即可轻松尝试虚拟试穿功能。

1. 访问在线空间:打开浏览器,访问https://huggingface.co/spaces/yisol/IDM-VTON。进入页面后,用户将看到IDM-VTON的在线操作界面。
2. 上传图片:在界面中,用户会找到相应的上传按钮或区域,用于上传自己的人物照片和想要试穿的服装图片。确保图片清晰,人物姿势和服装展示完整,以获得更好的试穿效果。
3. 调整参数:部分在线体验版本可能提供一些参数调整选项,如试穿效果的风格、服装的贴合程度等。用户可以根据自己的喜好和需求,尝试调整这些参数,以探索不同的虚拟试穿效果。
4. 启动试穿:上传图片并完成参数调整(如有需要)后,点击“开始试穿”或类似按钮,IDM-VTON将利用其先进的算法对上传的图片进行处理,生成虚拟试穿图像。
5. 查看结果
处理完成后,系统会在页面上显示虚拟试穿的结果图像。用户可以仔细查看试穿效果,评估服装是否适合自己的身材和风格。同时,用户还可以选择保存试穿结果,以便与朋友分享或用于个人参考。
通过在线体验IDM-VTON,用户能够快速感受虚拟试穿技术带来的便利和乐趣,直观地了解该技术在实际应用中的效果,为进一步探索其在时尚、零售等领域的潜力提供了直观的方式。
五、本地部署
1. 环境准备
确保系统中已安装git和conda。在终端或命令行界面执行以下命令
克隆项目代码:git clone https://github.com/yisol/idm-vton.git
进入项目目录:cd idm-vton
创建虚拟环境并安装依赖项:conda env create -f environment.yaml
激活虚拟环境:conda activate idm
2. 数据准备
从指定数据源下载viton-hd和dress code数据集。按照项目文档中的结构要求,将数据集文件组织整理好,确保模型能够正确读取数据。
viton-hd:https://github.com/shadow2496/VITON-HD
dress code:https://github.com/aimagelab/dress-code

3. 模型训练
下载预训练的ip-adapter和图像编码器
git clone https://huggingface.co/h94/IP-Adapter
将 ip-adapter 移至 ckpt/ip_adapter,将 image encoder 移至 ckpt/image_encoder。
使用带参数的 python 文件开始训练,
accelerate launch train_xl.py \
--gradient_checkpointing --use_8bit_adam \
--output_dir=result --train_batch_size=6 \
--data_dir=DATA_DIR
或者,您可以只使用脚本文件运行:`sh train_xl.sh`
4. 模型推断
使用带参数的 python 文件进行推理
accelerate launch inference.py \
--width 768 --height 1024 --num_inference_steps 30 \
--output_dir "result" \
--unpaired \
--data_dir "DATA_DIR" \
--seed 42 \
--test_batch_size 2 \
--guidance_scale 2.0
或者,您可以只使用脚本文件运行:`sh inference.sh`
5. 本地演示
下载[checkpoint](https://huggingface.co/spaces/yisol/IDM-VTON/tree/main/ckpt)并放入ckpt文件夹。

运行`python gradio_demo/app.py`命令,在本地浏览器中打开演示页面,即可体验IDM-VTON的虚拟试穿功能演示。
六、结语
IDM-VTON项目在虚拟试穿技术领域取得了显著的进展,其创新的技术方案和出色的性能表现为时尚与科技的融合提供了新的范例。通过高级语义融合、低级特征融合、文本提示增强和野外场景适应性等优势特点,IDM-VTON能够生成高度逼真、细节丰富的虚拟试穿图像,广泛应用于在线服装零售、时尚展示和个性化推荐等领域。尽管目前仍存在一些局限性,如在处理特定人体属性和复杂场景时可能面临挑战,
七、项目资料
项目代码:https://github.com/yisol/idm-vton
模型地址:https://huggingface.co/yisol/IDM-VTON
论文地址:https://arxiv.org/abs/2403.05139
(文:小兵的AI视界)