ICRA 2025|清华x光轮:自驾世界模型生成和理解事故场景

AIxiv专栏分享了一项名为AVD2的研究成果,旨在提升自动驾驶系统对事故场景的理解。通过生成与自然语言描述一致的事故视频并结合多任务学习技术,AVD2增强了事故分析能力,并提出了一个新的数据集EMM-AU来推动相关研究。

千帧长视频时代到来!MIT全新扩散算法让任意模型突破时长极限

MIT团队提出的新算法Diffusion Forcing Transformer(DFoT)让视频扩散模型生成了比之前长近50倍、上千帧的长视频,论文介绍了历史引导算法及其在不同数据集上的效果。