10×加速!DCM显著提升视频扩散模型推理效率!HunyuanVideo13B推理时间从1500秒缩短至120秒!

本文提出了一种双专家一致性模型DCM来解决视频生成中的一致性蒸馏问题,通过解耦语义合成与细节精修,显著减少采样步数的同时保持了较高的视觉质量。

统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子

文章讨论了自变量机器人如何通过统一模态架构,实现具身多模态推理能力。该架构消除视觉、语言和行动之间的人为边界,并采用生成模型进行跨模态学习,最终让机器人具备符号-空间推理、物理空间推理及自主探索与协作的能力,接近人类的直觉操作方式。

清华SageAttention3,FP4量化5倍加速!且首次支持8比特训练

清华大学陈键飞团队提出SageAttention3,实现了5倍于FlashAttention的推理加速。此模型在多种视频和图像生成等大模型上保持了端到端的精度表现,并首次提出了可训练的8比特注意力用于大模型的训练加速。