VITA-1.5: 迈向GPT-4o级实时视频-语音交互

VITA-1.5: 迈向GPT-4o级实时视频-语音交互。交互时延大幅降低。端到端语音交互时延由约4秒降低至1.5秒，实现近乎即时的交互，大幅提升用户体验。

参考文献：
[1] 模型链接：https://modelscope.cn/models/modelscope/NJU_VITA-1.5
[2] 代码链接：https://github.com/VITA-MLLM/VITA
[3] 论文链接：https://arxiv.org/pdf/2501.01957
[4] https://huggingface.co/VITA-MLLM/VITA-1.5/tree/main

（文：NLP工程化）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复