
两名没有高度专业 AI 知识的本科生表示,他们已经创建了一个公开可用的 AI 模型,可以生成类似于 Google 的 NotebookLM 的播客风格的剪辑。
合成语音工具的市场巨大,并且还在不断增长。ElevenLabs 是最大的参与者之一,但不乏挑战者(参见 PlayAI、Sesame 等)。投资者认为这些工具具有巨大的潜力。
根据 PitchBook 的数据 ,开发语音 AI 技术的初创公司去年筹集了超过 3.98 亿美元的风险投资。
Nari Labs 是新发布模型背后的团队,总部位于韩国的联合创始人之一 Toby Kim 表示,他和他的同事在三个月前开始学习语音 AI。受 NotebookLM 的启发,他们希望创建一个模型,该模型可以更好地控制生成的声音和“脚本中的自由度”。
Kim 说,他们使用了 Google 的 TPU Research Cloud 计划来训练 Nari 的模型 Dia,该计划为研究人员提供了对该公司 TPU AI 芯片的免费访问。Dia 有 16 亿个参数,可以从脚本中生成对话,让用户自定义说话者的语气并插入不流畅、咳嗽、大笑和其他非语言线索。
参数是模型用于进行预测的内部变量。通常,参数越多的模型性能越好。
Dia 可从 AI 开发平台 Hugging Face 和 GitHub 获得,可以在大多数具有至少 10GB VRAM 的现代 PC 上运行。除非提示使用预期样式的描述,否则它会生成随机语音,但它也可以克隆人员的语音。
在 TechCrunch 通过 Nari 的网络演示对 Dia 进行的简短测试中,Dia 运行得相当不错,可以毫无怨言地生成关于任何主题的双向聊天。语音质量似乎与其他工具相比具有竞争力,而语音克隆功能是这位记者尝试过的最简单的功能之一。
然而,与许多语音生成器一样,Dia 几乎没有提供任何保护措施。制作虚假信息或诈骗录音很容易。
在 Dia 的项目页面上,Nari 不鼓励滥用该模型来冒充、欺骗或以其他方式参与非法活动,但该组织表示它“不对”滥用负责。
Nari 也没有透露它抓取了哪些数据来训练 Dia。Dia 可能是使用受版权保护的内容开发的。
Hacker News 的一位评论者指出,一个样本听起来像 NPR 的“Planet Money”播客的主持人。在受版权保护的内容上训练模型是一种普遍但法律上可疑的做法。一些 AI 公司声称合理使用使他们免于承担责任,而权利持有人则声称合理使用不适用于培训。
无论如何,Kim 表示,Nari 的计划是在 Dia 和更大的未来模型之上创建一个具有“社交方面”的合成语音平台。Nari 还打算发布一份 Dia 的技术报告,并将该模型的支持扩展到英语以外的语言。
参考资料
https://techcrunch.com/2025/04/22/two-undergrads-built-an-ai-speech-model-to-rival-notebooklm/
编译:ChatGPT
(文:Z Potentials)