接近GPT-4o级别的开源实时视觉语音交互模型:VITA-1.5 上午8时 2025/01/07 作者 NLP工程化 VITA-1.5是接近GPT-4级别的开源实时视觉语音交互模型,能看懂图片视频并缩短了语音交互时延至1.5秒。