视觉语言模型归档

智谱新版VLM开源模型 GLM-4.1V-9B-Thinking

2025年7月3日8时作者 NLP工程化

基于GLM-4.1V-9B-Thinking模型，引入强化学习技术提升视觉语言模型能力，在18个任务中与8倍参数量的Qwen-2.5-VL-72B相当或超越

2025年6月29日16时作者机器之心

CMU 研究生李浩然团队提出 HoPE，通过混合频率分配策略和动态缩放时间编码提升多模态模型在长视频理解与检索任务中的表现。

2025年6月27日16时作者机器之心

基于强化学习训练的视觉语言模型成功在开放GUI环境中进行了自我探索，提升了智能体的交互能力。该研究展示了如何结合探索奖励、世界模型和GRPO强化学习来增强智能体的探索效率，并通过经验流蒸馏技术进一步提升了其自主性。

2025年6月18日14时作者 Hugging Face

它是一个轻量级
工具包
，让你可以在
免费的 Colab Notebook
上启动 VLM 训练。

2025年6月13日8时作者 AIGC开放社区

展和
应用
落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！
计算机视觉领域从传统的卷积神

2025年6月11日16时作者 PaperWeekly

VRAG-RL 是一种基于强化学习的视觉检索增强生成方法，通过引入多模态智能体训练，实现了视觉语言模型在检索、推理和理解复杂视觉信息方面的显著提升。

2025年5月30日16时作者量子位

香港中文大学与新加坡国立大学的研究者提出了一种名为TON的新颖选择性推理框架，让视觉语言模型可以自主判断是否需要显式推理。该方法显著减少了生成的思考链长度，提高了模型推理过程的效率，并且在不牺牲准确率的前提下提升了响应多样性。

2025年5月26日23时作者开源AI项目落地

苹果开发的高效视觉语言模型FastVLM采用新型混合视觉编码器FastViTHD，实现高分辨率图像处理速度提升3.2倍的同时保持精度。

2025年5月25日8时作者 GitHubStore

BAGEL 是一个开源多模态基础模型，拥有70亿活跃参数，在标准多模态理解排行榜上超越了当前顶尖开源模型，并展示了高级编辑能力及扩展至世界建模的能力。

2025年5月21日11时作者 GitHubStore

docext是无需OCR的新工具，用于从发票和护照等文档图像中提取结构化信息。它利用视觉语言模型准确识别并提取数据和表格信息。智能文档处理排行榜追踪和评估其在关键任务中的表现。