社区供稿 | Index-AniSora 技术升级开源: 动漫视频生成强化学习

B 站升级动画视频生成模型 Index-AniSora 技术并开源,支持番剧、国创、漫改动画、VTuber、动画 PV、鬼畜动画等多种二次元风格视频镜头一键生成!

整个工作技术原理基于 B 站提出的 AniSora: Exploring the Frontiers of Animation Video Generation in the Sora Era 实现,该工作已经被 IJCAI25 接收。再次基础上进一步提出了首个专为二次元视频生成打造的强化学习技术框架,全面提升动画内容的生产效率与质量 Aligning Anime Video Generation with Human Feedbackhttps://arxiv.org/abs/2504.10044

所有的工作全部开源!快戳地址: 

https://github.com/bilibili/Index-anisora/tree/main

上 Demo!



我们提出了一套专门用于动漫视频生成任务的对齐管线,其整体框架如 图1 所示。我们构建了首个面向动漫领域的高质量奖励数据集,共包含 30,000 条人工标注的动漫视频样本。人工评估包括两个方面: 视觉外观 (Visual Appearance与 视觉一致性 (Visual Consistency)。其中,视觉外观的评价仅考虑视频帧的质量,包括视觉平滑度 (VS)、视觉运动 (VM) 与视觉吸引力 (VA) 三个维度。而视觉一致性则进一步扩展了基本的文本-视频一致性 (TC),引入了图像到视频 (I2V) 任务中的图像-视频一致性 (IC) 与动漫内容中特有的角色一致性 (CC),确保更全面的评价。通过这六个维度,我们对动漫视频的整体质量进行系统性评估,从而更准确地反映人类在奖励建模中的偏好。基于此,我们进一步提出了 AnimeReward,一个专为动漫视频生成对齐设计的多维度高可信奖励系统。由于不同维度所关注的视觉特征存在差异,我们为不同维度采用专门的视觉-语言模型进行奖励回归,以更贴近地拟合人类偏好。我们进一步提出了 差距感知偏好优化 (GAPO),显式地将正负样本对之间的偏好差距融入损失函数,从而提升对齐训练的效率和最终性能。


图1 对齐管线整体概述


方法


1.动漫奖励数据集构建


为了增强数据集的动作类别多样性,我们收集的视频样本涵盖多种动作类别,包括说话、行走、挥手、亲吻、哭泣、拥抱、推拉等典型行为场景。通过人工标注,我们从 100 多种常见动作中总结出标准化的动作标签,对每个标签收集约 30~50 个视频片段,最终得到 5000 条真实动漫视频作为基础数据源。在文本提示词的设计方面,我们采用 Qwen2-VL 模型 [1] 对视频打标自动生成提示词,并使用 CogVideoX[2] 中提出的提示词优化策略,生成文本提示。原始图像采用每个视频的第三帧,以作为图像到视频生成的输入。基于这些提示词和原始图像,我们使用了 5 个先进的图像到视频生成模型 (Hailuo、Vidu、OpenSora[3]、OpenSora-Plan[4] 和 CogVideoX[2]),生成多样化的动漫视频。结合初始的 5000 条 GT 视频,我们构建了一个包含 30000 条动漫视频的奖励数据集,用于奖励模型的训练。此外,我们还构建了一个包含 6000 条动漫视频的测试集,并严格保证测试集与训练集在初始图像和提示内容上无重叠,以确保测试评估的准确性与泛化性。

为了全方位评估生成动漫视频的质量,人工标注从两个方面衡量视频质量: 视觉外观与视觉一致性。其中,视觉外观主要衡量视频的基础质量,关注其视觉表现,包括视觉的平滑度 (visual smoothness)、运动幅度 (visual motion) 以及整体的视觉吸引力 (visual appeal);而视觉一致性则更加侧重于多模态之间的协调性,具体包含文本与视频的语义对齐 (text-video consistency)、图像与视频的时空一致性 (image-video consistency),以及动漫角色在视频中的稳定性 (character consistency)。我们共邀请了 名专业标注人员参与标注过程,对每段视频从上述 6 个维度分别打分,评分范围为 1 到 5 分,5 分表示质量最佳。每个维度的最终得分由所有标注者的打分取平均值,以确保评价的客观性和鲁棒性。


2.AnimeReward训练


与依赖单一视觉-语言模型 (VLM) 统一训练回归所有维度的奖励分数的方法不同,AnimeReward 对不同维度使用专门的 VLM,通过奖励分数回归分别训练它们。


2.1 Visual Smoothness


对于动漫视频的视觉平滑度评估,我们基于 Mantis-8B-Idefics2 模型[5],微调其视觉编码器,并在其后接入一个回归头,来让模型输出拟合人工打分结果。给定一个视频,我们的模型的平滑度评分机制如下:

其中,I_i 表示视频的第 i 帧,N 为视频的总帧数,Ev 表示视觉编码器,Reg 为回归头模块。


2.2  Visual Motion


我们基于 ActionCLIP[6] 构建了一个动作评分模型,用于评估动漫视频中主要人物的运动幅度。在模型训练过程中,我们设计了一系列动作提示语 (motion prompts),用于引导模型学习不同运动幅度的语义表达。例如:

  • “主角在视频中有大幅度动作,如奔跑、跳跃、跳舞或挥手。”

  • “主角在视频中保持静止,没有明显的动作。”

最终,模型根据输入视频与预设动作提示语之间的余弦相似度,计算出动作评分:

其中,MCLIP 表示动作模型,V 表示待评估的视频片段,Tm 表示设计好的动作提示语。


2.3  Visual Appeal


视觉吸引力用于评估生成视频的基础质量,侧重于其整体美学表现。以往研究通常采用在真实世界图像数据集上训练的美学评分模型来进行评估。然而,这类模型在应用于动漫视频时效果不佳,不同方法生成的视频在评分上差异不明显,难以体现真实的美学偏好差异。为了解决这一问题,我们首先从视频中提取关键帧,然后对它们进行编码,训练一个美学回归模型来学习人类对动漫图像的审美标准,从而更精准地评估其视觉吸引力。吸引力评分的计算公式如下所示:



其中,I_i 表示关键帧,K 是提取的关键帧数量,SigLIP 为特征编码器,Aes 表示美学评分模型。


2.4  Text-Video Consistency


为了评估文本与视频的一致性,我们利用动漫文本-视频对,微调了视觉编码器与文本编码器,并在其上接入回归头,以学习文本与视频之间的语义对齐程度。文本-视频一致性分数的计算公式如下:



其中,Reg 表示回归头,Ev 和 Et 分别表示视觉编码器和文本编码器。模型通过联合文本提示 T 与对应视频 V,学习它们之间的语义匹配关系。


2.5  Image-Video Consistency


在图像到视频生成任务中,生成视频应与输入图像尽量保持外观上的一致性。类似于文本-视频一致性的评估方法,我们微调了视觉编码器与回归头,对图像与视频之间的外观一致性进行建模评分:

其中,V 表示待评估的视频片段,Ip 表示输入图像,Ev 为视觉编码器,Reg 为回归头。


2.6  Character Consistency


在动漫视频生成中,角色一致性是一个重要的因素。如果主角的身份和风格在视频中发生变化,即使视频质量较高,也可能存在侵权风险。因此,我们设计了一套系统性流程来评估角色一致性,流程包括: 角色检测、分割与识别等多个阶段,该模型的框架如 图2 所示。具体而言,我们首先使用 GroundingDINO[7]、SAM[8] 以及追踪工具,对视频中的每一帧提取角色的掩膜 (mask)。随后,我们使用 BLIP[9] 模型进行微调,以学习提取的人物掩膜与其对应的动漫角色 (IP) 之间的关联。


在推理阶段,我们通过计算生成视频中的动漫角色特征与角色库的对应特征之间的余弦相似度,来衡量角色在视频中的一致性。具体评分方式如下:



其中,N 表示采样的角色帧数量,M表示提取得到的第 i 帧的角色掩膜,fea_c 表示对应参考角色的特征表示。


图2 角色一致性训练和推理框架


我们将各个维度上经过训练的奖励模型整合,构建了多维动漫视频评价体系 

AnimeReward。对于动漫视频 v,初始帧为 x,对应的文本提示为 c,每个维度 d∈D 上的奖励得分记作 


其中  表示该维度奖励模型的参数。


那么该视频的整体奖励分数R(v) 通过对所有维度的评分取平均得到,公式如下:



通过对人类偏好的学习,AnimeReward 能够为动漫视频生成对齐提供高质量的偏好反馈信号,提升视频生成模型的整体表现与人类认知的一致性。


3.动漫视频生成对齐


传统的 DPO 方法仅关注样本对之间的偏好概率  建模,其中 v为样本对中得分较高 (被偏好) 的视频,vl 为得分较低 (不被偏好) 的视频。然而,这种方法忽略了偏好强度的差异,即不同样本对的正负样本之间的偏好差距的大小。


为了解决这一问题,我们提出了差距感知偏好优化 (Gap-Aware Preference Optimization, GAPO),首先为每个生成视频定义其奖励增益 (Reward Gain),公式如下:


其中, 表示视频 vi 的归一化奖励得分,α 是控制奖励增益强度的超参数。


对于每个偏好样本对 (vw,vl),我们将正负样本的奖励增益差值作为差距权重因子,作用于原始 DPO 损失函数,得到 GAPO 的损失函数:



通过在对齐训练中显示引入偏好差距信息,GAPO 在优化时显著放大了偏好差异明显的样本对的影响,同时抑制了偏好差异较小的样本对的干扰,从而更高效地提升模型对人类偏好的对齐能力,特别是在动漫视频生成这类主观性强的任务中具有重要意义。


实验


数据集


在对齐训练中,我们采用开源模型 CogVideoX-5B [2] 作为基线模型。我们首先构建了一个包含 2000 条原始动漫图像及其对应文本提示的初始训练集。基于该数据集,我们使用基线模型为每组数据采样生成  段动漫视频,再利用 AnimeReward ,对每组生成视频进行偏好奖励评分,选择其中得分最高和得分最低的两个视频,构成一个偏好样本对。最终得到包含 2000 对偏好样本的集合作为后续偏好对齐优化的训练集。


实验结果


我们采用自动化评测和人工评测两种方式来评估模型的对齐效果。自动评测包含 VBench-I2V[11], VideoScore[12] 和我们提出的 AnimeReward 三种方法。人工评测邀请了三位专业的评测人员给出主观评价。只有当 三位评测者中至少两位都认为视频 比 更好或更差时,视频 才会被认为赢或输

VBench-I2V [11] 基准的评测结果如 表1 所示,我们提出的偏好对齐方法在总分上取得了最优表现,在几乎所有评估指标上均显著优于基线模型,并在大多数情况下超越了 SFT (监督微调) 模型。值得注意的是,在 I2V Subject 和 Subject Consistency 两个关键指标上的提升尤为显著,表明我们的对齐方法能够帮助视频生成模型在保持动漫角色一致性方面具备更强的能力。如 表2 所示,在 AnimeReward 评价体系下,除 Visual Motion 外,我们的方法在所有维度上均实现了大幅提升,说明我们的对齐模型在视觉外观与一致性方面更贴近人类偏好。在 VideoScore [12] 评估中,我们的方法在三个维度上均优于基线模型与 SFT 模型,表现出更好的视觉质量和时序稳定性。同时,我们也观察到了,在动态程度 (即 Visual Motion/ Dynamic Degree) 这一指标上,对齐后的模型表现略逊于基线与 SFT 方法。对此,我们认为,高动态程度的视频更容易引发空间扭曲与伪影,从而大大降低整体视觉质量,对人类主观偏好产生负面影响。这一结果也表明,人类通常喜欢具有 更高视觉质量、更强一致性 与 更好稳定性  的视频内容,而非单纯追求高动态幅度的生成结果。


表1 在 VBench-I2V 上的定量性能比较


表2 在 AnimeReward 和 VideoScore 上的量化性能比较


图3 展示了人工评测的对比实验结果,我们的对齐模型相较于基线模型与 SFT 模型展现出显著优势,整体胜率超过 60%。尽管 SFT 模型使用了偏好分数最高的优质样本进行训练,但其生成视频的质量并未得到明显提升,甚至在人工评测中的胜率低于基线模型。


图3 不同模型生成的动漫视频的人工评测结果


消融研究


为验证我们提出的差距感知偏好优化 (GAPO) 相较于传统 DPO 的优势,我们在保持实验设置一致的前提下,仅更换偏好优化算法,进行对比实验。我们在前述三种评价体系上对不同模型进行了系统评估,实验结果如 表3 所示。其中,AnimeReward (AR) 和 VideoScore (VS) 的最终得分为各维度得分的平均值。从结果来看,GAPO 在三个评价体系中均取得了最优表现,尤其在 VBench-I2V (V-I2V)  AnimeReward (AR) 上相较 DPO 获得了显著提升。


表3 对 GAPO 在三个评价体系上的消融研究结果


为验证 AnimeReward 奖励模型在动漫视频偏好对齐任务中的优势,我们设计了对比实验,使用 VideoScore [12] 作为替代的奖励模型进行对齐训练。实验结果如 表4 所示。从结果可以看出,使用 AnimeReward 训练的模型在两个评价体系中均优于使用 VideoScore 训练的模型;而 VideoScore 仅仅在其自身评价体系中取得优势。为了更客观地评估两者的对齐性能,我们在 图4 展示了它们相对于基线模型在第三方评价基准 VBench-I2V [11] 各个维度上的可视化评价结果。除 Dynamic Degree 外,基于 AnimeReward 的对齐模型在其余 7 个维度上全面优于 VideoScore。


表4 基于不同奖励模型的消融研究结果


图4 基于不同奖励模型在 VBench-I2V 多个维度上的可视化评估结果


结论


本文提出了首个针对动漫视频生成的奖励模型 AnimeReward,旨在模拟人类偏好对生成动漫视频进行全方位的评价。我们基于两大方面设计了六个评价维度,从多个角度衡量生成动漫视频的质量。基于 AnimeReward,我们进一步提出了一种新颖的优化对齐策略 差距感知偏好优化 (Gap-Aware Preference Optimization, GAPO),在优化损失中显式引入偏好差距信息,从而高效提升生成模型的对齐性能。实验结果表明,仅仅依赖基线模型生成的视频数据,我们提出的对齐管线依然能够显著提升动漫视频的生成质量,使结果更贴近人类偏好,验证了该方法在偏好对齐任务中的有效性与实用性。


demo


  • 对齐效果


提示词: 画面中展现了石块发生爆炸的场景,发出刺眼的光芒,碎石四处飞散

对齐前⬇️



对齐后⬇️



提示词: 画面中一个人在快速向前奔跑,他奔跑的速度很快使得人物有些模糊

对齐前⬇️



对齐后⬇️



提示词:老人的目光紧盯着那颗宝石,右手轻微摆动着手中的放大镜,嘴巴在说话,仿佛它掌握着解开某种古老知识或秘密的关键。

对齐前⬇️



对齐后⬇️



参考文献


[1] Peng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen, Xuejing Liu, et al. Qwen2-vl: Enhancing vision-language model’s perception of the world at any resolution. arXiv preprint arXiv:2409.12191, 2024.

[2] Zhuoyi Yang, Jiayan Teng, Wendi Zheng, Ming Ding, Shiyu Huang, Jiazheng Xu, Yuanming Yang, et al. Cogvideox: Text-to-video diffusion models with an expert transformer. arXiv preprint arXiv:2408.06072, 2024.

[3] Zangwei Zheng, Xiangyu Peng, Tianji Yang, Chenhui Shen, Shenggui Li, Hongxin Liu, Yukun Zhou, Tianyi Li, and Yang You. Open-sora: Democratizing efficient video production for all. arXiv preprint arXiv:2412.20404, 2024.

[4] Bin Lin, Yunyang Ge, Xinhua Cheng, Zongjian Li, Bin Zhu, Shaodong Wang, Xianyi He, Yang Ye, Shenghai Yuan, Liuhan Chen, et al. Open-sora plan: Open-source large video generation model. arXiv preprint arXiv:2412.00131, 2024.

[5] Dongfu Jiang, Xuan He, Huaye Zeng, Cong Wei, Max Ku, Qian Liu, and Wenhu Chen. Mantis: Interleaved multi-image instruction tuning. arXiv preprint arXiv:2405.01483, 2024.

[6] Mengmeng Wang, Jiazheng Xing, and Yong Liu. Actionclip: A new paradigm for video action recognition. arXiv preprint arXiv:2109.08472, 2021.

[7] Tianhe Ren, Qing Jiang, Shilong Liu, Zhaoyang Zeng, Wenlong Liu, Han Gao, Hongjie Huang, Zhengyu Ma, Xiaoke Jiang, Yihao Chen, et al. Grounding dino 1.5: Advance the “edge” of open-set object detection. arXiv preprint arXiv:2405.10300, 2024.

[8] Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, et al. Sam 2: Segment anything in images and videos. In ICLR, 2025.

[9] Junnan Li, Dongxu Li, Caiming Xiong, and Steven Hoi. Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation. In ICML, 2022.

[10] Rafael Rafailov, Archit Sharma, Eric Mitchell, Christopher D Manning, Stefano Ermon, and Chelsea Finn. Direct preference optimization: Your language model is secretly a reward model. In NeurIPS, 2023.

[11] Ziqi Huang, Yinan He, Jiashuo Yu, Fan Zhang, Chenyang Si, Yuming Jiang, Yuanhan Zhang, Tianxing Wu, Qingyang Jin, et al. Vbench: Comprehensive benchmark suite for video generative models. In CVPR, 2024.

[12] Xuan He, Dongfu Jiang, Ge Zhang, Max Ku, Achint Soni, Haonan Chen, Abhranil Chandra, Ziyan Jiang, et al. Videoscore: Building automatic metrics to simulate fine-grained human feedback for video generation. In EMNLP, 2024.


-End-

作者丨Bwin、HarryJ、高树、seasonyang




本文由 Hugging Face 中文社区内容共建项目提供,稿件由社区成员投稿,经授权发布于 Hugging Face 公众号。文章内容不代表官方立场,文中介绍的产品和服务等均不构成投资建议。了解更多请关注公众号: 


如果你有与开源 AI、Hugging Face 相关的技术和实践分享内容,以及最新的开源 AI 项目发布,希望通过我们分享给更多 AI 从业者和开发者们,请通过下面的链接投稿与我们取得联系:

https://hf.link/tougao

(文:Hugging Face)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往