轻量级语音模型Vui开源，支持本地部署，笑声停顿全拟真，4万小时练出人类对话感！

在语音交互技术飞速发展的今天，打造一个自然、逼真的语音对话模型是许多开发者和AI语音团队的梦想。

传统语音模型要么需要云端算力，要么缺乏语气词和情感，难以模拟真人对话。设备端轻量语音的兴起，像给AI装上了“人类嗓子”。

近日，Fluxions-AI团队在GitHub上开源了一款轻量级、可在设备端运行的语音对话模型：Vui。

作为“NotebookLM”风格的语音模型，Vui 不仅能生成流畅的对话，还能精准模拟语气词（如“呃”、“嗯”）、笑声和犹豫等非语言元素，带来沉浸式的交互体验。

它提供三款模型：基础模型（4万小时对话训练）、单说话人模型（单人上下文感知）、双说话人模型（双人互动），可被应用于语音助手、播客生成、客服AI等场景。

Vui 作为一款小型对话语音模型，可直接在设备上运行。

直接下载项目，并安装依赖即可。

git clone https://github.com/fluxions-ai/vui.git
cd vui
pip install -e .

运行在线Demo

python demo.py

通过 Hugging Face 可直接体验部署好的Demo，可以直观感受其效果。

Vui的轻量设计和逼真语音让它适用于多种场景，直击交互痛点：

Vui作为轻量级NotebookLM风格的语音模型，以其逼真的语气词、笑声和设备端运行能力，为语音交互带来了新突破。

Vui.BASE、Vui.ABRAHAM和Vui.COHOST三种模型分别满足通用、单人和双人对话需求，适用于智能助手、播客创作等场景。

更现实的是，它解决了我们的核心痛点：模型重、语音假、部署难。

有兴趣的小伙伴，可以访问开源仓库和Hugging Face Demo立即体验。

GitHub 项目地址：https://github.com/fluxions-ai/vui

HF 在线体验：https://huggingface.co/spaces/fluxions/vui-space

● 一款改变你视频下载体验的神器：MediaGo

● 字节把 Coze 核心开源了！可视化工作流引擎 FlowGram 上线，AI 赋能可视化流程！

● 英伟达开源语音识别模型！0.6B 参数登顶 ASR 榜单，1 秒转录 60 分钟音频！

● 开发者的文档收割机来了！这个开源工具让你一小时干完一周的活！

● PDF文档解剖术！OCR神器+1，这个开源工具把复杂排版秒变结构化数据！

（文：开源星探）