Nari Labs开源文本转语音模型生成逼真对话并支持情感控制,开源命令行AI助手,供数百个MCP服务器的容器化版本每天自动更新

关注我,记得标星⭐️不迷路哦~


✨ 1: Dia

Dia是Nari Labs开发的16亿参数文本转语音模型,能直接生成逼真对话,并支持情感控制。

Dia 是 Nari Labs 开发的一个拥有 16 亿参数的文本到语音(Text-to-Speech)模型。 

Dia 的核心特点:

  • 直接生成对话:
     Dia 直接从文本脚本生成高度逼真的对话语音。
  • 语音控制:
     可以通过音频调节输出的情感和音调。
  • 非语言交流:
     能够生成非语言交流声音,例如笑声、咳嗽、清嗓子等。
  • 语音克隆:
     可以克隆特定人的声音,并用克隆的声音生成文本脚本。
  • 开放权重:
     提供预训练模型检查点和推理代码,方便研究。
  • 易于上手:
     提供了快速启动代码,可快速搭建 Gradio UI 进行体验。

地址:https://github.com/nari-labs/dia

✨ 2: SkyReels V2

SkyReels V2是首个无限长度电影生成模型,利用Diffusion Forcing框架,实现故事、图像转视频等多种应用。

SkyReels V2 是一个无限长度电影生成模型,它使用 Diffusion Forcing 框架,并结合了多模态大型语言模型 (MLLM)、多阶段预训练、强化学习和 Diffusion Forcing 技术。 SkyReels V2 的主要功能包括故事生成、图像到视频合成、摄像机导演功能,以及通过 Skyreels-A2 系统实现的多主体一致的视频生成。它旨在解决现有视频生成模型在提示一致性、视觉质量、运动动态和持续时间方面的局限性。

地址:https://github.com/SkyworkAI/SkyReels-V2

✨ 3: Open Codex

Open Codex是一款无需API密钥,基于本地语言模型的开源命令行AI助手,可将自然语言转换为Shell命令。

Open Codex 是一个完全开源的命令行 AI 助手,灵感来源于 OpenAI Codex。它支持本地运行,无需 API 密钥,并且使用诸如 phi-4-mini 这样的开源语言模型。用户可以通过自然语言描述需要执行的任务,Open Codex 会生成相应的 shell 命令,并在用户确认后执行。

Open Codex 的主要特点:

  • 自然语言转 Shell 命令:
     将自然语言描述转换为 shell 命令。
  • 本地运行:
     模型在本地运行,无需网络连接。
  • 跨平台支持:
     支持 macOS, Linux, 和 Windows。
  • 执行前确认:
     在执行命令前会询问用户是否确认。
  • 多种操作选项:
     提供复制到剪贴板,中止,执行等选项。
  • 单次交互模式:
     目前只支持单次交互,未来的计划包括交互式和函数调用。
  • 彩色输出:
     提供彩色终端输出,提高可读性。

地址:https://github.com/codingmoh/open-codex

✨ 4: NodeRAG

NodeRAG是一个基于异构图的RAG系统,支持精细检索、可视化和高效性能,旨在提升RAG效果。

NodeRAG是一个基于异构图的检索增强生成(RAG)系统。它通过构建由不同类型的节点组成的图结构,增强了RAG系统的检索能力,并提供了更精细、可解释的检索结果。

地址:https://github.com/Terry-Xu-666/NodeRAG

✨ 5: MCP Containers

MCP Containers提供数百个MCP服务器的容器化版本,简化部署,每日自动更新,并提供安全隔离的运行环境。

MCP Containers 提供了一种简便、安全的方式来运行和使用各种 Model Context Protocol (MCP) 服务器。 它通过容器化的形式,将数百个 MCP 服务器打包成 Docker 镜像,方便用户快速部署和使用。这些镜像每日自动更新,确保用户始终使用最新版本,并提供了一个隔离的运行环境,增强了安全性。

地址:https://github.com/metorial/mcp-containers

(文:每日AI新工具)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往