英伟达开源「描述一切」模型,拿下7个基准SOTA

研究提出「描述一切模型」(DAM),能生成图像或视频中特定区域的详细描述。用户可通过点、框等方式指定区域,DAM则提供丰富的上下文描述。此模型在多个任务中均表现优异,并支持多粒度输出。

首个开源无限时长AI电影生成模型,未来AI生成电影就像生成小说一样简单。

SkyReels V2 是一款基于 Diffusion Forcing 框架的开源无限时长电影生成模型,支持故事生成、图生视频及镜头导演等功能。它已在电商等多领域具备实际应用价值。

多模态AI模型再添猛将!Liquid:字节最新开源的多模态LLM,视觉与语言统一生成!

Liquid 是一款由字节跳动、华中科技大学和香港大学联合开源的强大模型,能无缝集成视觉理解与生成能力。其7B参数的多模态大语言模型基于离散编码技术,能够实现统一处理图像、文字输入输出,表现出色的视觉理解和强大的图像生成功能。

谢赛宁:Thinking in Space

纽约大学谢赛宁团队提出研究新视角:视频空间推理。他们构建了一个全新的基准,涵盖多种视觉-空间智能任务,并通过自动化生成的自标注数据测试AI表现。结果显示当前MLLMs在视觉-空间智能上表现不佳,但仍表现出色。

Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

本文介绍了一种基于生成式视觉编码器Florence-2的多模态大语言模型Florence-VL,通过创新的深度广度融合策略结合多层次、多任务视觉特征,实现了在多种多模态基准任务上的卓越性能。