VITA-1.5 归档 - 每时AI

多模态，杀疯了！

2025年2月7日16时作者 PaperWeekly

多模态大模型是实现AGI的必经之路。通过模拟人类的多模态感知能力，多模态大语言模型（MLLM）引领变革，并成功展示了实时交互的VITA-1.5模型。

Github揽获1.6K星！南大、腾讯发布VITA-1.5: 迈向GPT-4o级实时视频-语音交互

2025年1月9日16时作者 PaperWeekly

近年来，多模态大语言模型（MLLMs）主要聚焦在视觉和文本模态的融合上，对语音的关注较少。然而，语音

震撼！首个开源的交互式全模态大语言模型，GPT-4o realtime的开源实现。

2025年1月8日16时作者开源AI项目落地

南京大学AI团队发布的VITA-1.5开源项目是一款接近实时的多模态大型语言模型，支持中英文，显著降低交互延迟，并在语音处理和图像理解方面取得提升。