视觉问答
HealthGPT:浙大与阿里打造医学视觉语言大模型,智能医疗新突破,看病更方便!
HealthGPT是浙江大学、电子科技大学和阿里巴巴等联合开发的医学视觉语言模型,它通过异构低秩适应、分层问答和多模态融合技术,在医学图像分析、文本理解生成、教育研究及智能健康管理方面表现出色。
新范式,自回归大一统!北大提出VARGPT:单一框架实现视觉「理解」与「生成」
北大团队提出VARGPT模型,通过单一自回归框架实现视觉理解与生成。其创新设计包括引入视觉解码器、多尺度图像分词器和特征投影器,并采用三阶段训练策略优化性能。
谢赛宁:Thinking in Space
纽约大学谢赛宁团队提出研究新视角:视频空间推理。他们构建了一个全新的基准,涵盖多种视觉-空间智能任务,并通过自动化生成的自标注数据测试AI表现。结果显示当前MLLMs在视觉-空间智能上表现不佳,但仍表现出色。