端到端语音交互归档 - 每时AI

接近GPT-4o级别的开源实时视觉语音交互模型：VITA-1.5

上午8时 2025/01/07 作者 NLP工程化

VITA-1.5是接近GPT-4级别的开源实时视觉语音交互模型，能看懂图片视频并缩短了语音交互时延至1.5秒。