迈向长上下文视频生成!FAR重塑下一帧预测范式,短视频与长视频双双登顶SOTA

本文首次系统性地研究并提出了高效建模长上下文视频生成的方法,通过重构视频生成任务为逐帧预测,并引入长短时上下文的非对称patchify策略和多层KV Cache机制,实现了高效的长视频训练与长上下文视频生成。

模型随你换,素材一处管:视频&图片创作者时间与成本双重解放

文章介绍了AI聚合应用Pollo AI的优势,包括覆盖全面且支持迅速的模型、丰富的视频和图像生成功能以及素材管理等。它在图像和视频领域提供了几乎所有的生成功能,并解决了创作链路复杂的问题。

ICRA 2025|清华x光轮:自驾世界模型生成和理解事故场景

AIxiv专栏分享了一项名为AVD2的研究成果,旨在提升自动驾驶系统对事故场景的理解。通过生成与自然语言描述一致的事故视频并结合多任务学习技术,AVD2增强了事故分析能力,并提出了一个新的数据集EMM-AU来推动相关研究。