

-
论文地址:https://arxiv.org/pdf/2412.07589 -
GitHub 仓库:https://github.com/jianzongwu/DiffSensei -
项目主页 – https://jianzongwu.github.io/projects/diffsensei/ -
数据链接 – https://huggingface.co/datasets/jianzongwu/MangaZero

-
角色一致性:跨面板保持角色特征稳定,支持连续叙事,可根据文本动态调整任务状态和动作。 -
布局精准:通过掩码机制与边界框标注,实现多角色与对话框的像素级定位。 -
动态适应性:MLLM 适配器使角色可依据文本提示调整状态(如 “愤怒表情” 或 “挥手动作”),突破传统模型的静态生成限制。




-
多模态特征融合:
-
结合 CLIP 图像编码器 与 漫画专用编码器(Magi),提取角色语义特征,避免直接复制像素细节导致的 “粘贴效应”。 -
通过重采样模块将特征压缩为低维 token,适配扩散模型的交叉注意力机制,增强生成灵活性。 -
掩码交叉注意力机制:复制扩散模型的键值矩阵,创建独立的角色注意力层,仅允许角色在指定边界框内参与注意力计算,实现布局的像素级控制。
-
引入对话布局嵌入,将对话框位置编码为可训练的嵌入向量,与噪声潜在空间融合,支持后期人工文本编辑。 -
MLLM 驱动的动态适配器:以多模态大语言模型(如 LLaVA)为核心,接收面板标题与源角色特征,生成与文本兼容的 目标角色特征,动态调整表情、姿势等属性。训练中结合 语言模型损失(LM Loss) 与 扩散损失,确保生成特征既符合文本语义,又与图像生成器兼容。 -
多阶段训练优化
-
第一阶段:基于 MangaZero 数据集训练扩散模型,学习角色与布局的联合生成。 -
第二阶段:冻结图像生成器,微调 MLLM 适配器,强化文本驱动的角色动态调整能力 813,从而适应与文本提示对应的源特征。在第一阶段使用模型作为图像生成器,并冻结其权重。



-
步骤 1 – 从互联网中下载一些现有的漫画页面。 -
步骤 2 – 使用预先训练好的模型自主为漫画面板添加相关标注。 -
步骤 3 – 利用人工来校准人物 ID 标注结果。
-
多 ID 保持,灵活可控的图片生成训练。漫画数据天然拥有同一个人物多个状态的图像,对可根据文本灵活控制人物状态的定制化生成训练有很大帮助。 -
风格可控的漫画生成。MangaZero 中包含的漫画系列多样且具有代表性,可以在模型结构中增加风格定制模块,实现画风可控的漫画生成。例如生成龙珠风格的柯南。
(文:机器之心)