TTS 归档 - 每时AI

突破大模型推理瓶颈！首篇「Test-Time Scaling」全景综述，深入剖析AI深思之道

2025年5月13日23时作者机器之心

智能学院、Salesforce AI Research、斯坦福大学、UCSB、香港中文大学等机构的多

2025年4月28日23时作者开源AI项目落地

MCP发布后，作者基于MiniMax MCP+Cursor的功能，设计了一个单词记忆助手应用。文章详细介绍了如何配置MCP并使用UV环境搭建网站，还列举了自媒体创作辅助软件、互动式故事创作平台和虚拟旅游体验等几个应用场景。强调了MCP让技术门槛更低的重要性，并鼓励开发者探索更多创新用途。

2025年4月27日14时作者老刘说NLP

今日记录了MCP相关进展及语音大模型和推理大模型的最新情况，包括Kimi开源语音模型、关于推理能力实证分析的研究，以及Model Context Protocol (MCP) 的综述等内容。

2025年4月27日14时作者小兵的AI视界

模型越来越能够生成自然、逼真的语音，为各种应用场景提供了强大的支持。
最近，由两名韩国研究者组建的

2025年4月23日23时作者开源AI项目落地

TTS工具Spark-TTS由SparkAudio开发，支持中文和英文，基于5亿参数的Qwen2.5 LLM和BiCodec技术。它具有零样本语音克隆、中英混合生成等功能，实现跨语言场景应用。

2025年4月22日8时作者 NLP工程化

手工艺品人设引擎结合Live2D、LLM、ASR、TTS和RVC技术，提供逼真语音、动画和个性化定制的数字角色解决方案。

2025年4月14日11时作者 GitHubStore

Orpheus TTS 是基于 Llama-3b 骨干网络的开源文本到语音系统，展示了使用大型语言模型（LLMs）进行语音合成的新能力。它支持类人语音、零样本语音克隆及指导情感和语调控制等功能，且具备低延迟特性。

2025年3月15日16时作者开源星探

一款名为CSM的新开源TTS模型由Sesame最新发布，能够生成带有上下文情感、自然语气和音调变化的人工智能语音。它具有高保真效果、端到端Transformer生成能力、上下文理解以及实时语音生成等功能。

2025年3月2日8时作者 NLP工程化

Spark-TTS：基于LLM的高效文本转语音模型，实现零样本文本到语音转换，支持中英双语合成，可控参数调节。

2025年1月19日8时作者 NLP工程化

一款开源语音对话助手百聆通过ASR+LLM+TTS实现，时延800ms，低配置也可运行，支持记忆功能和持续学习。