风格迁移重大突破!西湖大学等提出StyleStudio攻克「过拟合」难题 CVPR 2025
西湖大学等团队提出StyleStudio,通过跨模态AdaIN技术、教师模型稳定布局及基于风格的无分类器引导,有效解决文本驱动风格迁移中的对齐问题、布局不稳定和模糊性等问题,提升生成图像质量和稳定性。
西湖大学等团队提出StyleStudio,通过跨模态AdaIN技术、教师模型稳定布局及基于风格的无分类器引导,有效解决文本驱动风格迁移中的对齐问题、布局不稳定和模糊性等问题,提升生成图像质量和稳定性。
研究人员提出MHA2MLA方法,通过微调预训练模型减少KV缓存大小90%,保持甚至提升性能。该技术利用低秩联合压缩键值技术和分组查询注意力策略,降低推理成本的同时维持精度。
AIxiv专栏发布了一篇系统性技术综述论文《Safety at Scale: A Comprehensive Survey of Large Model Safety》,全面调研了大模型安全领域的390篇研究工作,涵盖6种主流大模型和10种攻击类型。该论文介绍了各类模型的攻击与防御方法,并归纳了常用的数据集和评估基准,总结了4个重要研究趋势及主要挑战,呼吁学术界与国际社会加强合作,共同应对大模型安全问题。
音频驱动的层次化视觉合成工具Hallo通过分层音频驱动视觉合成模块和端到端扩散范式实现了高质量的肖像图像动画生成。其精细的区域划分与同步建模、端到端的特点以及多种预训练模型支持,使其在多媒体内容创作、虚拟人物互动和智能客服等领域具有广泛应用前景。
复旦大学启动人工智能课程体系建设和教育模式改革,推出116门AI-BEST序列课程,包括面向全校开放的通识基础课程、专业核心课程及应用课程。
清华、复旦等联合提出Eko框架,开发者通过简洁代码和自然语言快速构建虚拟员工,支持浏览器和电脑操作,具备生产级干预机制,实现自动化任务如数据收集、测试和文件管理。
复旦大学综述了角色扮演AI(RPLAs)的研究现状,指出基于文本的角色扮演AI系统已能够模拟不同信念和人格。研究提出了三类人格分类框架:群体人格、角色人格和个性化人格,并分析了构建方法与评估体系,讨论了技术挑战及未来方向。
复旦大学与微软等机构提出StableAnimator框架,实现高质量身份一致性人类视频生成。该框架通过全局内容感知面部编码器、分布感知的身份适配器和基于HJB方程的面部优化来保持人物身份信息的一致性并提升视频质量。