震撼！首个开源的交互式全模态大语言模型，GPT-4o realtime的开源实现。

OpenAI的realtime多模态大模型，大家是不是已经体验过了，国内也有几家大厂做了类似的多模态视觉、语音交互大模型。

今天看到一个牛的开源项目，直接把GPT4o级别的实时视觉和语音交互模型开源了。

先感谢作者！感谢南京大学AI团队！

扫码加入AI交流群

获得更多技术支持和交流

（请注明自己的职业）

项目简介

VITA-1.5 是一款开源的交互式多模态大型语言模型，实现接近实时的视觉和语音交互体验。相较于之前的VITA-1.0版本，VITA-1.5 在多个方面取得了显著进步。VITA-1.5 还采用了渐进式训练策略，确保在加入语音模态时，对其他多模态性能的影响最小化。该模型支持中英文两种语言，适用于多种应用场景。

DEMO

如果看到这，你还不知道VITA是什么，看下视频就懂了。

而且它真的很强，跟我在用GPT4o实时视频模型的体验差不多。

VITA-1.5功能特点

显著降低交互延迟。端到端的语音交互延迟已从大约4秒降低到1.5秒，实现了近乎即时的交互，并极大地提升了用户体验。
多模态性能增强。在MME、MMBench和MathVista等多模态基准测试中的平均性能显著提高，从59.8提升到70.8。
语音处理能力提升。语音处理能力已提升到新的水平，ASR WER（词错误率，测试其他）从18.4降低到7.5。用了一个端到端的TTS模块替换了VITA-1.0的独立TTS模块，该模块接受LLM的嵌入作为输入。
渐进式训练策略。通过这种方式，添加语音对其他多模态性能（视觉-语言）的影响很小。平均图像理解性能仅从71.3下降到70.8。

实验结果

在图像和视频理解基准测试中的评估。

VITA-1.5在ASR基准测试中超越了专业的语音模型。

添加音频模态对图像和视频理解能力的影响很小。

项目链接

https://github.com/VITA-MLLM/VITA

关注「开源AI项目落地」公众号

（文：开源AI项目落地）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复