Kyutai实验室再推力作,实时同声传译语音模型直逼人类水平

作者子川

来源AI先锋官

去年7月,有一场来自法国的AI奇袭——法国非营利实验室Kyutai以一款名为Moshi的实时语音交互模型震撼全球。
并且还开源。
时隔7个月,这个实验室Kyutai再添新作——Hibiki。
据悉,Hibiki 是一款实时同声传译语音模型,性能直逼人类同声传译的水平。
就像这样——

不过可惜的是,目前这款模型仅支持法语到英语的实时语音翻译。
据介绍,Hibiki在实时口语翻译或文本翻译时,不仅能同时保留说话人的声音,还可以根据源语音的语义内容去调整语速。
运行Hibiki就像简单地从模型中取样,可以在实时翻译时,同时处理多个任务。比如在实时会议翻译中,它就能轻松搞定。

除了发布Hibiki之外,还发布了一个可以直接在手机上实时运行的模型——Hibiki-M, Hibiki 的“迷你版”,参数更少(只有17亿)。
比如在 iPhone 16 Pro 上,它能连续运行超过一分钟,速度还超快!

这意味着Hibiki不仅能够在服务器端高效处理大量翻译请求,还能够轻松部署到移动设备上,为用户提供随时随地的实时翻译服务。

除了表现优异外,其纸面成绩也相当抗打,

据介绍,在ASR-BLEU指标上,Hibiki取得了30.5分的优异成绩,超越了多个离线基准模型。

同时在人类评分员的评估中,Hibiki生成的语音质量得分高达4.12(满分5分),接近真实人类译员的水平。

在长篇内容的翻译任务中,Hibiki的平均延迟仅比Seamless高出1.4秒,但是翻译的质量要更好。

Hibiki之所以能够取得如此优异的成绩,离不开背后一系列创新技术的支持。

多流语言模型架构

Hibiki采用了独特的多流语言模型架构,可以同时处理两种语言的语音。它通过Transformer把源语言和目标语言的语音流一起处理,并且还能同时生成文字和语音。

这样,Hibiki就能实时接收源语音并立刻生成翻译后的语音,从而实现翻译效果更好。

弱监督学习与上下文对齐

为了应对实时翻译中对齐数据稀缺的挑战,Hibiki引入了一种弱监督学习方法。通过利用现成的文本翻译系统的困惑度,Hibiki能够识别出每个单词的最佳延迟,并创建对齐的合成数据。

这种方法不仅解决了数据对齐问题,还使得Hibiki能够在没有复杂推理策略的情况下,适应性地进行实时翻译。

语音合成与说话者相似性

Hibiki在语音合成方面也很厉害。它用了一种改进的TTS(语音合成)技术,生成的语音不仅自然流畅,还能保留说话者的声音特点。

此外,Hibiki还采用了条件训练和分类器自由引导技术,让翻译后的语音更接近源语言说话者的声音。

随着全球化的加速和跨文化交流的日益频繁,翻译愈发成为生活中的必需品,当有这么一款同声传译的语音模型,语言或许将不再阻扰我们看世界。


 

(文:AI先锋官)

欢迎分享

发表评论