视觉问答归档

Pixel Reasoner：滑铁卢等高校联合打造的视觉语言模型，用好奇心驱动的强化学习解锁视觉推理新高度！

2025年6月7日14时作者小兵的AI视界

Pixel Reasoner 是一款基于像素空间推理增强的视觉语言模型，通过直接操作视觉输入提升对视觉细节的捕捉能力。它结合指令调优和好奇心驱动的强化学习，在多个视觉推理基准测试中表现出色。

2025年4月17日8时作者开源星探

Liquid 是一款由字节跳动、华中科技大学和香港大学联合开源的强大模型，能无缝集成视觉理解与生成能力。其7B参数的多模态大语言模型基于离散编码技术，能够实现统一处理图像、文字输入输出，表现出色的视觉理解和强大的图像生成功能。

2025年4月2日14时作者小兵的AI视界

到文本，多模态模型正逐渐成为连接人类感知与机器理解的桥梁。今天，
我们将深入探讨一个备受瞩目的开源多

2025年3月3日14时作者小兵的AI视界

HealthGPT是浙江大学、电子科技大学和阿里巴巴等联合开发的医学视觉语言模型，它通过异构低秩适应、分层问答和多模态融合技术，在医学图像分析、文本理解生成、教育研究及智能健康管理方面表现出色。

2025年1月28日16时作者机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000

2025年1月28日12时作者新智元

北大团队提出VARGPT模型，通过单一自回归框架实现视觉理解与生成。其创新设计包括引入视觉解码器、多尺度图像分词器和特征投影器，并采用三阶段训练策略优化性能。

2024年12月23日14时作者 AI寒武纪

纽约大学谢赛宁团队提出研究新视角：视频空间推理。他们构建了一个全新的基准，涵盖多种视觉-空间智能任务，并通过自动化生成的自标注数据测试AI表现。结果显示当前MLLMs在视觉-空间智能上表现不佳，但仍表现出色。