Github揽获1.6K星!南大、腾讯发布VITA-1.5: 迈向GPT-4o级实时视频-语音交互 下午4时 2025/01/09 作者 PaperWeekly 近年来,多模态大语言模型(MLLMs)主要聚焦在视觉和文本模态的融合上,对语音的关注较少。然而,语音