扩散模型归档 - 第5页共11页 - 每时AI

GPT-4o图像生成的秘密，OpenAI 没说，网友已经拼出真相？

2025年3月29日16时作者机器之心

GPT-4o 图像生成引起了广泛兴趣和猜测，OpenAI仅发布系统卡附录详细评估、安全和治理。网络上流传多种猜想及逆向工程猜测其可能采用自回归+扩散或非扩散的自回归生成方式。

单张照片生成360°3D场景，支持灵活视角漫游｜人大&北师大&字节

2025年3月28日23时作者量子位

FlexWorld团队提出一种新方法，通过合成和整合新的3D内容逐步构建灵活视角的3D场景。该方法结合了微调的视频到视频扩散模型和几何感知的3D场景扩展过程，能够有效生成大幅度相机变化下的高质量3D场景。

爆火Block Diffusion引发LLM架构变革？自回归+扩散模型完美结合 ICLR 2025

2025年3月25日11时作者新智元

散模型的优势，解决了现有扩散模型生成长度受限、推理效率低和生成质量低的问题。通过块状扩散实现任意长度

无需百卡集群！港科等开源LightGen: 极低成本文生图方案媲美SOTA模型

2025年3月19日8时作者机器之心

LightGen 是由香港科技大学 Harry Yang 教授团队联合 Everlyn AI 和 UCF 提出的一种新型高效图像生成模型，旨在解决主流生成模型依赖大量数据和计算资源的问题。论文提出通过知识蒸馏和直接偏好优化策略，在有限的数据和计算资源下实现了高质量图像的生成，并在多个实验中展示了与 SOTA 模型相当甚至超过的性能表现。

一家高校实验室，走出12家明星AI初创公司！Pieter Abbeel：我的NB学生们

2025年3月14日12时作者机器之心

大牛、UC 伯克利教授 Pieter Abbeel 浅浅统计了一番：我带过的学生里，也就 12 个吧

鸽了两年放大招！稚晖君发布灵犀X2，上演“自行车杂技”+“葡萄缝针”神技，比人还会演

2025年3月12日23时作者极市干货

智元 X-Lab 发布灵犀 X2 具身智能机器人，具备运动控制、交互智能等能力。采用强化学习策略和多模态感知模型，实现高效协同作业、任务分解与精细动作序列生成。

CVPR 2025｜北大开源多模态驱动的定制化漫画生成框架DiffSensei，还有4.3万页漫画数据集

2025年3月7日16时作者机器之心

DiffSensei 是首个结合多模态大语言模型（MLLM）与扩散模型的定制化漫画生成框架，通过创新机制实现角色控制、布局精准及动态叙事。该框架支持从文本到漫画的高效转换，并发布首个专为漫画生成设计的数据集MangaZero，提升角色一致性、文本跟随能力和图像质量。

英伟达发布天气模型CorrDiff，预测效率大涨

2025年2月28日8时作者 AIGC开放社区

专注于AIGC领域的专业社区，关注大语言模型(LLM)的发展和应用。CorrDiff模型大幅提升了气象预测精度，并提高了能源效率。

不要自回归！扩散模型作者创业，首个商业级扩散LLM来了，编程秒出结果

2025年2月27日16时作者机器之心

首个商业级扩散大型语言模型Mercury发布，每秒生成超过1000个token，性能和效率显著提升。相比现有自回归LLM，其速度提高了5到10倍，同时保持了高精度。

Bengio参与，扩散模型+蒙特卡洛树搜索实现System 2规划

2025年2月23日16时作者机器之心

将扩散模型与蒙特卡洛树搜索相结合，提出蒙特卡洛树扩散（MCTD），实现高效和可扩展的规划。