两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标
Nari Lab的Dia-1.6B模型通过开源和微调技术实现了高质量的人声对话生成,支持多种音色、语气和效果,目前在单卡配置下每秒可生成约40个token音频。两位韩国学生仅用3个月便自主开发完成此项目,使用谷歌TPU资源训练模型,并计划将其发展为一款完整应用。
Nari Lab的Dia-1.6B模型通过开源和微调技术实现了高质量的人声对话生成,支持多种音色、语气和效果,目前在单卡配置下每秒可生成约40个token音频。两位韩国学生仅用3个月便自主开发完成此项目,使用谷歌TPU资源训练模型,并计划将其发展为一款完整应用。
新智元报道
编辑:编辑部 HZN
最近英伟达等机构爆火全网的《猫和老鼠》,背后模型被扒出来了——竟是来自智谱国产大模型CogVideoX-5B!论文地址:https://test-time-training.github.io/video-dit/。
开源社区纷纷抱怨被 AI 公司大规模抓取公共资源导致服务器压力过大,Drew DeVault 等多名创始人发出声音呼吁关注。这些爬虫违反协议、无视流量限制,对项目造成严重负担。
Python项目排行:8个精选项目简介。1. maple-font;2. ollama-deep-researcher;3. RD-Agent;4. InkyPi;5. OpenBB;6. awesome-devops;7. lorax;8. system-design-primer。
AI圈爆火的Manus被质疑后创始人回应称sandbox开放是设计的一部分,并非核心机密,真正亮点在于其多Agent架构。Peak强调沙箱一定程度的开放性并非秘密,且模型使用开源技术。