视觉语言模型归档 - 第2页共3页

太卷了！阿里千问送新年大礼：Qwen2.5-VL视觉模型免费体验，解锁无限视觉智能

下午4时 2025/01/28 作者 AI寒武纪

阿里千问家族迎来了新的旗舰级成员Qwen2.5-VL，重点提升视觉理解、智能体能力和长视频理解能力。亮点包括精准图像识别、智能交互与任务完成、长时间视频内容理解和结构化数据输出等。

智谱Agent抢跑OpenAI，GLM-PC一句话搞定一切！网友：有AGI那味了

上午8时 2025/01/24 作者新智元

新智元报道
编辑：编辑部 HYZ
【新智元导读】
OpenAI超级智能体，竟被中国公司抢发？智谱率先

英伟达联合清华、MIT推出史上最快绘画大模型

下午4时 2025/01/11 作者路过银河AI

英伟达联合清华大学、麻省理工大学推出Sana绘画模型，相比传统扩散模型在模型大小和推理速度方面有显著提升。其优势在于深度压缩自动编码器和高效的线性DiT模块。

Vision Parse：将PDF文档转换为Markdown的智能工具

下午12时 2025/01/06 作者 NLP工程化

Vision Parse 是一款智能工具，利用先进的视觉语言模型能精准识别并提取文本、表格和公式，保留文档格式和层次结构，具备扫描文档智能处理、高级格式完整保留、多模型协同支持及私有化部署选项四大亮点。

视觉语言模型易受攻击？西安交大等提出基于扩散模型的对抗样本生成新方法

上午8时 2024/12/28 作者机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000

DeepSeek-VL2开源MoE 视觉语言模型家族，Gemini英语口语助手，将 PDF 文档转换为互动式思维导图

上午10时 2024/12/16 作者每日AI新工具

本文介绍了DeepSeek-VL2、Leffa、小红书笔记生成器、Gemini 英语口语助手和PDF Mind Map Maker等创新技术与应用。它们涵盖多模态视觉-语言模型、可控人物图像生成框架、笔记生成工具及AI英语口语辅助等多个领域，提供高效便捷的功能以提升用户在不同场景下的工作效率和体验质量。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30