多模态大语言模型归档

NeurIPS 2024 TextHarmony：和谐统一的多模态文字理解与生成大模型

上午8时 2025/06/12 作者极市干货

TextHarmony是首个在单一模型中实现视觉文本感知、理解与生成任务的OCR研究，通过ViT+MLLM+Diffusion架构及Slide-LoRA缓解模态不一致问题，显著提高OCR相关任务性能。

下午4时 2025/05/27 作者机器之心

本文介绍的研究团队将语言模型 LLaDA 拓展至多模态领域，推出扩散大语言模型 LLaDA-V。该模型在多个基准测试中表现出色，并展示了扩散模型在多模态理解领域的巨大潜力。

下午4时 2025/04/28 作者机器之心

纽约大学与Adobe联合研究团队提出Satori系统，通过结合BDI模型、大语言模型结构认知及多模态指示生成技术，实现AR辅助系统的理解和行为判断能力升级。

下午11时 2025/04/25 作者机器之心

研究提出「描述一切模型」(DAM)，能生成图像或视频中特定区域的详细描述。用户可通过点、框等方式指定区域，DAM则提供丰富的上下文描述。此模型在多个任务中均表现优异，并支持多粒度输出。

下午11时 2025/04/22 作者开源AI项目落地

SkyReels V2 是一款基于 Diffusion Forcing 框架的开源无限时长电影生成模型，支持故事生成、图生视频及镜头导演等功能。它已在电商等多领域具备实际应用价值。

下午4时 2025/04/17 作者 PaperWeekly

Driving）的端到端解决方案已成为主流趋势，并在视觉语义理解任务中取得了显著进展。
然而，它们在

上午8时 2025/04/17 作者开源星探

Liquid 是一款由字节跳动、华中科技大学和香港大学联合开源的强大模型，能无缝集成视觉理解与生成能力。其7B参数的多模态大语言模型基于离散编码技术，能够实现统一处理图像、文字输入输出，表现出色的视觉理解和强大的图像生成功能。

下午4时 2025/03/18 作者 GitHubStore

基于多模态大语言模型的PDF转Markdown工具，支持任意PDF文档转换为结构清晰的Markdown格式，并完整保留排版、表格等元素。

下午4时 2025/01/08 作者 NLP工程化

Awesome-Multimodal-LLM-for-Math-STEM汇集了最新的数学/STEM/编程领域的研究成果，旨在促进相关领域的发展。

下午2时 2024/12/23 作者 AI寒武纪

纽约大学谢赛宁团队提出研究新视角：视频空间推理。他们构建了一个全新的基准，涵盖多种视觉-空间智能任务，并通过自动化生成的自标注数据测试AI表现。结果显示当前MLLMs在视觉-空间智能上表现不佳，但仍表现出色。