迈向长上下文视频生成!FAR重塑下一帧预测范式,短视频与长视频双双登顶SOTA
本文首次系统性地研究并提出了高效建模长上下文视频生成的方法,通过重构视频生成任务为逐帧预测,并引入长短时上下文的非对称patchify策略和多层KV Cache机制,实现了高效的长视频训练与长上下文视频生成。
本文首次系统性地研究并提出了高效建模长上下文视频生成的方法,通过重构视频生成任务为逐帧预测,并引入长短时上下文的非对称patchify策略和多层KV Cache机制,实现了高效的长视频训练与长上下文视频生成。
可灵 2.0 在图片生成和视频模型上进行了大版本更新,提升图像质量、增强提示词理解能力及视频编辑功能。新的2.0版本展示了丰富的场景创作能力和艺术表现力。
文章介绍了AI聚合应用Pollo AI的优势,包括覆盖全面且支持迅速的模型、丰富的视频和图像生成功能以及素材管理等。它在图像和视频领域提供了几乎所有的生成功能,并解决了创作链路复杂的问题。
马斯克收购视频生成初创公司Hotshot,该团队仅4人用了两年时间开发出多个视频生成模型。老马表示即将发布自己的视频生成模型Grok。Hotshot的投资者包括Stripe前高管、Reddit联合创始人等。
原字节跳动AI大将骆怡航加入生数科技担任CEO,全面负责公司研发、产品、商业化及团队管理工作。唐家渝仍保留总裁一职,专注于战略发展和品牌等核心职能。
AIxiv专栏分享了一项名为AVD2的研究成果,旨在提升自动驾驶系统对事故场景的理解。通过生成与自然语言描述一致的事故视频并结合多任务学习技术,AVD2增强了事故分析能力,并提出了一个新的数据集EMM-AU来推动相关研究。