视觉语言模型归档 - 第4页共4页

视觉语言模型易受攻击？西安交大等提出基于扩散模型的对抗样本生成新方法

2024年12月28日8时作者机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000

DeepSeek-VL2开源MoE 视觉语言模型家族，Gemini英语口语助手，将 PDF 文档转换为互动式思维导图

2024年12月16日10时作者每日AI新工具

本文介绍了DeepSeek-VL2、Leffa、小红书笔记生成器、Gemini 英语口语助手和PDF Mind Map Maker等创新技术与应用。它们涵盖多模态视觉-语言模型、可控人物图像生成框架、笔记生成工具及AI英语口语辅助等多个领域，提供高效便捷的功能以提升用户在不同场景下的工作效率和体验质量。

视觉语言模型能否实现鲁棒的数学推理？UC伯克利发布测评基准DynaMath

2024年12月11日13时2024年11月23日20时作者 PaperWeekly

本文介绍了一项新的动态生成的测评基准DynaMath，用于评估和研究视觉语言模型在处理多模态数学问题时的推理能力。通过分析当前最强的一些视觉语言模型（如GPT-4o）在简单数学题上的表现，发现它们存在漏洞和鲁棒性不足的问题。DynaMath提供了501个高质量、多主题的种子问题及其变体，评估了14个最先进的视觉语言模型的表现，揭示了其推理稳健性的局限性。

多模态竞技场对标90B Llama 3.2！Pixtral 12B技术报告全公开

2024年11月19日13时作者每时AI

Mistral AI发布了自家首个多模态大模型Pixtral 12B，并详细介绍了其技术细节。Pixtral采用全新的视觉编码器，支持不同分辨率和纵横比的图像输入，性能优于多个开源模型和闭源模型，在多种实际场景下的评估中表现出色。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31