开源星探
开源播客TTS神器!高效TTS模型:Muyan-TTS,0.33秒生成1秒音频,零样本语音合成!
Muyan-TTS 是一款专为播客场景设计的开源文本转语音(TTS)模型,具有超低延迟生成能力、支持自定义说话人及长文本连续合成等特性。主要特点包括快速生成、说话人适配和离线部署友好。
告别OCR!无需OCR的开源文档提取神器:DocExt,VLM驱动,安全高效!
Docext 是一个基于视觉语言模型的文档结构化信息提取工具,支持发票、护照等敏感文档处理。它通过本地部署确保数据隐私,并提供自定义字段和表格提取功能,适用于多种场景如发票管理、证件录入等。
Suno最强开源对手来了!ACE Studio和阶跃星辰联合开源了一款音乐模型,20秒即可生成4分钟神曲!
ACE-Step 是一款由 ACE Studio 与 StepFun 联合开发的开源音乐生成基础模型,参数量为 3.5B。它支持多语言、多风格的音乐创作,并且能够在 NVIDIA A100 GPU 上仅需20秒生成一首4分钟的完整歌曲。该模型结合了扩散生成技术、深度压缩自编码器(DCAE)和轻量级 Transformer 架构,具备一键生成完整音乐、高级控制机制等核心功能亮点。
字节把 Coze 核心开源了!可视化工作流引擎 FlowGram 上线,AI 赋能可视化流程!
字节跳动开源流程构建引擎FlowGram,支持固定布局和自由布局,结合AI增强功能简化工作流开发。其特点包括丰富的交互体验、节点控制灵活性、强大的扩展能力和低代码能力。
开源 AI 音视频图文创作神器!一键音视频转文档,支持主流自媒体平台图文风格转换!
AI-Media2Doc是一款支持本地部署的音视频转图文工具,一键生成多种风格文档如公众号文章、小红书文案等,无需依赖FFmpeg。
新型开源端到端 AI 语音模型!Voila:195ms 超低延迟引领全双工对话!
语音交互技术的进步改变了人机对话方式。Maitrix团队发布了全双工、低延迟的Voila开源AI端到端语音模型,支持多语言识别与翻译,并提供了多种个性化角色设置功能。
英伟达开源语音识别模型!0.6B 参数登顶 ASR 榜单,1 秒转录 60 分钟音频!
英伟达发布Parakeet TDT 0.6B V2开源语音识别模型,参数仅600M,平均词错误率(WER)6.05%,可在1秒内完成60分钟音频转录,支持英文,已入驻Hugging Face Open ASR榜单首位。
Zotero OCR神器,一键翻译 PDF 论文,轻松提升阅读效率!
一款专为Zotero设计的翻译插件zotero-pdf2zh能一键将英文论文翻译成中文,并保留公式和图表。支持多种翻译引擎,提供高质量翻译服务和优化排版功能。