VITA-ML 归档 - 每时AI

VITA-1.5: 迈向GPT-4o级实时视频-语音交互

2025年1月22日8时作者 NLP工程化

VITA-1.5 提升视频-语音交互速度，端到端语音交互时延从约4秒降低至1.5秒。

接近GPT-4o级别的开源实时视觉语音交互模型：VITA-1.5

2025年1月7日8时作者 NLP工程化

VITA-1.5是接近GPT-4级别的开源实时视觉语音交互模型，能看懂图片视频并缩短了语音交互时延至1.5秒。