视觉语言模型归档 - 第2页共4页

85倍速度碾压：苹果开源FastVLM，能在iphone直接运行的视觉语言模型

2025年5月17日8时作者机器之心

手拍图问 AI：「这是什么？」，背后的 FastVLM 模型正在默默解码。
最近，苹果开源了一个能在

2025年5月12日8时作者开源星探

Docext 是一个基于视觉语言模型的文档结构化信息提取工具，支持发票、护照等敏感文档处理。它通过本地部署确保数据隐私，并提供自定义字段和表格提取功能，适用于多种场景如发票管理、证件录入等。

2025年4月25日23时作者机器之心

研究提出「描述一切模型」(DAM)，能生成图像或视频中特定区域的详细描述。用户可通过点、框等方式指定区域，DAM则提供丰富的上下文描述。此模型在多个任务中均表现优异，并支持多粒度输出。

2025年4月17日16时作者机器之心

近日，大连理工大学与莫纳什大学的研究团队提出VLIPP框架，通过引入物理规律提升视频生成的物理真实性。论文指出视频扩散模型在物理场景下表现不佳的原因，并提出两阶段方法，利用视觉语言模型预测运动路径，再用细粒度的视频扩散模型生成符合物理规则的视频。

2025年3月30日11时作者新智元

在哪个城市拍摄的。在新研究中，表现最好的AI模型，猜出图片所在城市的正确率比人类高62.6%！以后网

2025年3月24日23时作者 PaperWeekly

文章介绍了一篇关于对抗攻击的研究成果，该研究提出了一种新的方法M-Attack来提高对大型视觉语言模型的攻击成功率，并成功应用于多个商业模型中。

2025年3月22日16时作者量子位

模型（VLM）生成结构合理、物理一致的场景布局仍是一项挑战。以“请将这些家具合理摆放在房间中”为例，

2025年3月20日16时作者新智元

新智元报道
编辑：LRST
EgoNormia基准用于评估视觉语言模型在规范推理方面的能力，结果显示当前最先进的模型仍远不如人类。论文提出了三个子任务并分析了1853个视频数据集中的规范决策问题。

2025年3月19日11时作者量子位

清华大学智能产业研究院联合商汤研究院等机构发布首个基于通用动作空间的具身基础模型框架UniAct，解决了具身智能中的动作空间异构一致性难题。通过视觉语言模型实现跨模态泛化，在多项权威评测中超越参数量达14倍的OpenVLA对手。