扩散模型归档

这个扩散LLM太快了！没有「请稍后」，实测倍速于Gemini 2.5 Flash

2025年6月27日23时作者机器之心

Mercury 是一款专为聊天应用设计的扩散 LLM，其速度和效率显著提升，能够实现即时响应。Inception Labs 在 X 上宣布了这款新产品，它在性能测试中表现优异，接近 GPT-4.1 Nano 和 Claude 3.5 Haiku 等前沿模型。

2025年6月19日8时作者机器之心

本文提出了一种双专家一致性模型DCM来解决视频生成中的一致性蒸馏问题，通过解耦语义合成与细节精修，显著减少采样步数的同时保持了较高的视觉质量。

2025年6月17日23时作者极市干货

型
Orthus，可同时生成离散文本和连续图像特征。其通过特定的扩散头和语言模型头分别处理图像和文本

2025年6月16日23时作者极市干货

本文提出UniRestore框架，结合互补特征恢复模块和任务特征适配器，有效弥合感知式与任务导向图像恢复之间的差距，在多项任务中展现了领先性能和良好的可扩展性。

2025年6月12日23时作者量子位

研究者提出一种新的正则化方法Dispersive Loss，旨在改进扩散模型生成图片的效果。该方法不需要定义正样本对，通过鼓励中间表示的分散性来提高模型的泛化能力和生成质量。论文在ImageNet数据集上进行了测试，并展示了其有效性。

2025年6月12日8时作者极市干货

TextHarmony是首个在单一模型中实现视觉文本感知、理解与生成任务的OCR研究，通过ViT+MLLM+Diffusion架构及Slide-LoRA缓解模态不一致问题，显著提高OCR相关任务性能。

2025年6月9日23时作者极市干货

kGIT 方案做生成的生成理解统一模型。
>>
加入极市CV技术交流群，走在计算机视觉的最前沿
太长