Kyutai实验室再推力作，实时同声传译语音模型直逼人类水平

作者｜子川

来源｜AI先锋官

去年7月，有一场来自法国的AI奇袭——法国非营利实验室Kyutai以一款名为Moshi的实时语音交互模型震撼全球。

并且还开源。

时隔7个月，这个实验室Kyutai再添新作——Hibiki。

据悉，Hibiki 是一款实时同声传译语音模型，性能直逼人类同声传译的水平。

就像这样——

不过可惜的是，目前这款模型仅支持法语到英语的实时语音翻译。

据介绍，Hibiki在实时口语翻译或文本翻译时，不仅能同时保留说话人的声音，还可以根据源语音的语义内容去调整语速。

运行Hibiki就像简单地从模型中取样，可以在实时翻译时，同时处理多个任务。比如在实时会议翻译中，它就能轻松搞定。

除了发布Hibiki之外，还发布了一个可以直接在手机上实时运行的模型——Hibiki-M， Hibiki 的“迷你版”，参数更少（只有17亿）。

比如在 iPhone 16 Pro 上，它能连续运行超过一分钟，速度还超快！

这意味着Hibiki不仅能够在服务器端高效处理大量翻译请求，还能够轻松部署到移动设备上，为用户提供随时随地的实时翻译服务。

除了表现优异外，其纸面成绩也相当抗打，

据介绍，在ASR-BLEU指标上，Hibiki取得了30.5分的优异成绩，超越了多个离线基准模型。

同时在人类评分员的评估中，Hibiki生成的语音质量得分高达4.12（满分5分），接近真实人类译员的水平。

在长篇内容的翻译任务中，Hibiki的平均延迟仅比Seamless高出1.4秒，但是翻译的质量要更好。

Hibiki之所以能够取得如此优异的成绩，离不开背后一系列创新技术的支持。

Hibiki采用了独特的多流语言模型架构，可以同时处理两种语言的语音。它通过Transformer把源语言和目标语言的语音流一起处理，并且还能同时生成文字和语音。

这样，Hibiki就能实时接收源语音并立刻生成翻译后的语音，从而实现翻译效果更好。

为了应对实时翻译中对齐数据稀缺的挑战，Hibiki引入了一种弱监督学习方法。通过利用现成的文本翻译系统的困惑度，Hibiki能够识别出每个单词的最佳延迟，并创建对齐的合成数据。

这种方法不仅解决了数据对齐问题，还使得Hibiki能够在没有复杂推理策略的情况下，适应性地进行实时翻译。

Hibiki在语音合成方面也很厉害。它用了一种改进的TTS（语音合成）技术，生成的语音不仅自然流畅，还能保留说话者的声音特点。

此外，Hibiki还采用了条件训练和分类器自由引导技术，让翻译后的语音更接近源语言说话者的声音。

随着全球化的加速和跨文化交流的日益频繁，翻译愈发成为生活中的必需品，当有这么一款同声传译的语音模型，语言或许将不再阻扰我们看世界。

（文：AI先锋官）