扩散模型
仅128个token达到ImageNet生成SOTA性能!MAETok:有效的扩散模型的关键是什么?
ETok在仅使用128个token的情况下,于256×256和512×512分辨率的ImageNet
图像生成推理大模型,港中文北大等联手破解画质提升难题
来自港中文、北大和上海AI Lab的研究团队将思维链(CoT)与生成模型结合,显著提高了自回归图像生成的质量,并提出了潜力评估奖励模型(PARM)及其增强版本(PARM++),进一步优化了图像生成质量。
《Understanding Deep Learning》
《Understanding Deep Learning》是一本关于深度学习的专业书籍,涵盖理论基础、性能评估等多个主题,并附有大量练习题。
AAAI 2025 免训练低成本!上海交大提出用于高效扩散模型的令牌剪枝方法
上海交通大学提出SiTo方法,通过基于相似性的令牌剪枝技术,无需训练且硬件友好地加速扩散模型。显著提升了生成质量并减少了内存和计算成本。
开源AI零样本照片转舞蹈视频项目,可玩性极高,远超之前所有同类开源项目。
这是一款开源的零样本人像视频动画项目X-Dyna,它能够通过驱动面部表情和身体动作将单张人像图片动画化,并且还能让背景动起来。该技术由扩散模型、动态适配器模块、局部控制模块等组成,能够生成流畅的肢体动作和自然的环境效果。
Adobe、加大推出音乐模型DITTO-2,可精准控制强度、旋律等
全球多媒体巨头Adobe联合加州大学发布创新音乐模型DITTO-2,大幅提升生成效率和控制能力。通过模型蒸馏和推理时间优化技术实现高效精准音乐生成。