两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标
Nari Lab的Dia-1.6B模型通过开源和微调技术实现了高质量的人声对话生成,支持多种音色、语气和效果,目前在单卡配置下每秒可生成约40个token音频。两位韩国学生仅用3个月便自主开发完成此项目,使用谷歌TPU资源训练模型,并计划将其发展为一款完整应用。
Nari Lab的Dia-1.6B模型通过开源和微调技术实现了高质量的人声对话生成,支持多种音色、语气和效果,目前在单卡配置下每秒可生成约40个token音频。两位韩国学生仅用3个月便自主开发完成此项目,使用谷歌TPU资源训练模型,并计划将其发展为一款完整应用。