VITA-1.5: 迈向GPT-4o级实时视频-语音交互。交互时延大幅降低。端到端语音交互时延由约4秒降低至1.5秒,实现近乎即时的交互,大幅提升用户体验。
参考文献:
[1] 模型链接:https://modelscope.cn/models/modelscope/NJU_VITA-1.5
[2] 代码链接:https://github.com/VITA-MLLM/VITA
[3] 论文链接:https://arxiv.org/pdf/2501.01957
[4] https://huggingface.co/VITA-MLLM/VITA-1.5/tree/main
(文:NLP工程化)