CVPR 2025|北大开源多模态驱动的定制化漫画生成框架DiffSensei,还有4.3万页漫画数据集
DiffSensei 是首个结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架,通过创新机制实现角色控制、布局精准及动态叙事。该框架支持从文本到漫画的高效转换,并发布首个专为漫画生成设计的数据集MangaZero,提升角色一致性、文本跟随能力和图像质量。
DiffSensei 是首个结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架,通过创新机制实现角色控制、布局精准及动态叙事。该框架支持从文本到漫画的高效转换,并发布首个专为漫画生成设计的数据集MangaZero,提升角色一致性、文本跟随能力和图像质量。
一项研究提出了一种新的数据集蒸馏方法NCFM (Neural Characteristic Function Matching),大幅提升了性能并实现了资源效率的飞跃。它通过引入神经特征函数差异度量指标,解决了现有方法的局限性,仅需2.3GB显存即可在单张GPU上完成CIFAR-100无损蒸馏,并显著超越了现有的SOTA方法。
上海交通大学等联合研发的Light-A-Video技术无需训练即可实现零样本视频重打光,解决了视频编辑中的关键技术难题。该方法利用预训练模型和创新模块确保光照一致性和稳定性。
上海AI实验室联合团队推出Mini-InternVL多模态大模型,仅5%参数量实现90%性能,支持自动驾驶、医学图片感知等垂类任务。
AI4S攀登者行动计划旨在解决传统研究模式的限制,推动具有重大变革潜力的下一代技术。该计划聚焦发展跨学科颠覆式创新,并通过多维度的支持体系助力科研团队加速项目实施和价值转化。
上海人工智能实验室对书生大模型进行了升级,推出了InternLM3.0版本,通过精炼数据框架提升了数据效率和思维密度,节约了75%以上训练成本,并实现了常规对话与深度思考能力融合。
上海AI实验室发布的书生·浦语3.0大模型通过数据精炼框架提升了数据效率和思维密度,实现了常规对话与深度思考能力融合。该模型使用4T训练数据达到主流开源模型18T的训练效果,并在多种评测集上性能领先。