Github揽获1.6K星!南大、腾讯发布VITA-1.5: 迈向GPT-4o级实时视频-语音交互 下午4时 2025/01/09 作者 PaperWeekly 近年来,多模态大语言模型(MLLMs)主要聚焦在视觉和文本模态的融合上,对语音的关注较少。然而,语音
震撼!首个开源的交互式全模态大语言模型,GPT-4o realtime的开源实现。 下午4时 2025/01/08 作者 开源AI项目落地 南京大学AI团队发布的VITA-1.5开源项目是一款接近实时的多模态大型语言模型,支持中英文,显著降低交互延迟,并在语音处理和图像理解方面取得提升。