如何高效桥接视觉和语言,字节&中大提出全新多模态大模型连接器ParGo
字节团队与中山大学合作提出的ParGo模型通过巧妙融合全局视野和局部细节,在多模态大语言模型中表现出色,成功入选AAAI2025。ParGo采用Partial-Global Perception Block和Cascaded Partial Perception Block模块,结合全局视角和局部细节处理视觉特征,有效提升了LLM的效果。
字节团队与中山大学合作提出的ParGo模型通过巧妙融合全局视野和局部细节,在多模态大语言模型中表现出色,成功入选AAAI2025。ParGo采用Partial-Global Perception Block和Cascaded Partial Perception Block模块,结合全局视角和局部细节处理视觉特征,有效提升了LLM的效果。