速递｜两名本科生3个月打造的AI语音模型，挑战谷歌NotebookLM，16亿参数实现自然对话生成

图片来源：Nari

两名没有高度专业 AI 知识的本科生表示，他们已经创建了一个公开可用的 AI 模型，可以生成类似于 Google 的 NotebookLM 的播客风格的剪辑。

合成语音工具的市场巨大，并且还在不断增长。ElevenLabs 是最大的参与者之一，但不乏挑战者（参见 PlayAI、Sesame 等）。投资者认为这些工具具有巨大的潜力。

根据 PitchBook 的数据，开发语音 AI 技术的初创公司去年筹集了超过 3.98 亿美元的风险投资。

Nari Labs 是新发布模型背后的团队，总部位于韩国的联合创始人之一 Toby Kim 表示，他和他的同事在三个月前开始学习语音 AI。受 NotebookLM 的启发，他们希望创建一个模型，该模型可以更好地控制生成的声音和“脚本中的自由度”。

Kim 说，他们使用了 Google 的 TPU Research Cloud 计划来训练 Nari 的模型 Dia，该计划为研究人员提供了对该公司 TPU AI 芯片的免费访问。Dia 有 16 亿个参数，可以从脚本中生成对话，让用户自定义说话者的语气并插入不流畅、咳嗽、大笑和其他非语言线索。

参数是模型用于进行预测的内部变量。通常，参数越多的模型性能越好。

Dia 可从 AI 开发平台 Hugging Face 和 GitHub 获得，可以在大多数具有至少 10GB VRAM 的现代 PC 上运行。除非提示使用预期样式的描述，否则它会生成随机语音，但它也可以克隆人员的语音。

在 TechCrunch 通过 Nari 的网络演示对 Dia 进行的简短测试中，Dia 运行得相当不错，可以毫无怨言地生成关于任何主题的双向聊天。语音质量似乎与其他工具相比具有竞争力，而语音克隆功能是这位记者尝试过的最简单的功能之一。

然而，与许多语音生成器一样，Dia 几乎没有提供任何保护措施。制作虚假信息或诈骗录音很容易。

在 Dia 的项目页面上，Nari 不鼓励滥用该模型来冒充、欺骗或以其他方式参与非法活动，但该组织表示它“不对”滥用负责。

Nari 也没有透露它抓取了哪些数据来训练 Dia。Dia 可能是使用受版权保护的内容开发的。

Hacker News 的一位评论者指出，一个样本听起来像 NPR 的“Planet Money”播客的主持人。在受版权保护的内容上训练模型是一种普遍但法律上可疑的做法。一些 AI 公司声称合理使用使他们免于承担责任，而权利持有人则声称合理使用不适用于培训。

无论如何，Kim 表示，Nari 的计划是在 Dia 和更大的未来模型之上创建一个具有“社交方面”的合成语音平台。Nari 还打算发布一份 Dia 的技术报告，并将该模型的支持扩展到英语以外的语言。

参考资料

https://techcrunch.com/2025/04/22/two-undergrads-built-an-ai-speech-model-to-rival-notebooklm/

编译：ChatGPT

——-

（文：Z Potentials）