多模态大模型归档

极客说｜从 ViT 到 VLM：视觉建模的演进与多模态交互

上午8时 2025/06/13 作者 AIGC开放社区

展和
应用
落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！
计算机视觉领域从传统的卷积神

上午8时 2025/06/08 作者 PaperWeekly

多模态大模型在文档理解领域的性能显著，但现有基准存在真实场景挑战。字节跳动联合华中科技大学发布首个真实世界文档理解基准数据集WildDoc，揭示了当前模型的不足，并提出改进策略。

下午4时 2025/06/05 作者量子位

上海人工智能实验室联合多家单位提出了一种名为VeBrain的新模型，该模型通过统一感知、推理和控制建模方式实现了多模态大模型对物理实体的直接操控。它在视觉感知、空间推理和机器人控制方面均表现卓越，并且与现有模型相比，在多个基准测试中表现出最佳性能。

下午4时 2025/05/30 作者量子位

MME-VideoOCR团队评估MLLM在视频OCR中的能力，构建精细任务体系和高质量数据集，揭示了当前模型的局限性，并提出了优化建议。

下午4时 2025/05/24 作者 AI前线

bedding 增强安全对齐），针对多模态大模型（MLLMs）的低资源安全对齐难题，创新性地通过合成

下午4时 2025/05/24 作者机器之心

字节跳动团队提出首个真实世界场景文档理解基准数据集WildDoc，揭示当前多模态大模型在实际应用中的不足，并提出了改进策略。

上午8时 2025/05/23 作者开源星探

字节跳动发布的BAGEL是首个支持多模态输入输出、思维链推理和MOT架构优化的跨模态超级AI模型，性能超越Qwen2.5-VL、InternVL-2.5。它能理解图像更准确，生成图像媲美Stable Diffusion 3，并在10+基准测试中表现优异。

下午4时 2025/05/20 作者机器之心

启元实验室启动”启智杯”算法大赛，聚焦卫星遥感图像、无人机目标检测和多模态大模型对抗三大方向。大赛设立75万元奖金池，面向研究机构、企事业单位等开放参赛。

上午8时 2025/05/13 作者机器之心

蚂蚁和中国人民大学的研究团队提出ViLAMP模型，实现对超长视频的高效处理。ViLAMP通过混合精度策略，在关键帧上保持高精度分析，大幅提升了视频理解效率，并在多个基准测试中超越现有方案。

上午11时 2025/05/12 作者机器人开放社区

自变量机器人科技完成数亿元A轮融资，用于加速全自研大模型与机器人本体的迭代及应用场景合作落地。