kyutai-labs归档 - 每时AI

MoshiVis：让语音模型“看懂”图像，开启视觉对话新时代

上午8时 2025/03/27 作者 NLP工程化

MoshiVis利用7B参数的Moshi模型新增适配器参数支持讨论图像，兼容PyTorch、Rust和MLX三种后端，具备实时视觉对话能力。

一款高保真实时语音翻译模型：Hibiki

上午8时 2025/02/10 作者 NLP工程化

一款高保真实时语音翻译模型Hibiki可保留原声并实时翻译，支持声音特征迁移和多语言。