开源归档 - 第12页共155页

Cursor 官方教程，使用 Mermaid 生成架构图，以可视化系统结构和数据流

上午8时 2025/05/24 作者 NLP工程化

Cursor官方教程使用Mermaid生成架构图，可视化系统结构和数据流。

TEN VAD（语音活动检测）

上午8时 2025/05/24 作者 NLP工程化

TEN VAD 是一个轻量级流式语音活动检测模型，具有低延迟、低功耗和高准确率的优势，用于预处理语音输入的大语言模型(LLM)。

3行代码做出自己的数字人，GitHub爆火的国产项目你用上了吗？

上午8时 2025/05/24 作者开源星探

一秒视频，短短30秒即可克隆你的数字分身；无需编程基础，三行代码即可构建实时对话数字人。
硅基智能推

TEN Turn Detection（轮次检测）

上午8时 2025/05/24 作者 NLP工程化

TEN Turn Detection 解决人机对话中判断用户何时停止说话的问题，支持全双工语音交互，通过分析语言模式判断是否回应，让对话更加流畅自然。

字节开源视觉-语言多模态大模型，AI理解现实世界的能力越来越强了。

下午11时 2025/05/23 作者开源AI项目落地

字节开源的Seed1.5-VL是视觉-语言多模态大模型，支持多种复杂任务如盲人判断红绿灯和智能导盲。其包含5.32亿参数视觉编码器和200亿激活参数混合专家大语言模型，已在多个公开基准中表现出色。

Muyan-TTS：10万小时数据预训练，0.33秒极速生成播客级语音，小白也能玩转AI配音！

下午2时 2025/05/23 作者小兵的AI视界

声读物，再到播客和视频配音等。
然而，现有的
TTS
模型往往存在一些局限性，例如依赖大量目标说话人

这个AI浏览器代理太强了！让AI帮你自动完成复杂网页操作，微软开源新神器

上午11时 2025/05/23 作者 GitHubStore

Magentic-UI 是一个革命性的人机协作浏览器代理系统，由微软开源。它能通过透明可控界面让AI像真人一样操作浏览器执行复杂任务，包括表单填写、航班筛选和数据收集等。

GitHub Actions 工作流中运行 Claude Code，连接macOS Apple Notes的MCP服务器

上午11时 2025/05/23 作者每日AI新工具

本文介绍了多个AI相关的项目和工具，包括Claude Code Base Action、MMaDA、Pocket Flow Project Template、Notes MCP 和 KVoiceWalk。它们分别涵盖了代码生成、多模态扩散大语言模型、LLM项目模板、跨平台笔记服务及语音克隆等应用场景。

前端开发辅助神器：Stagewise，它可以连接前端UI和AI代码编辑器，让AI直接与浏览器交互

上午8时 2025/05/23 作者 NLP工程化

前端开发辅助工具Stagewise连接UI和AI代码编辑器，提供实时浏览器上下文信息，支持多种框架，实现便捷、精确的修改操作。

如何从零构建”小”大语言模型

上午8时 2025/05/23 作者 NLP工程化

通过零基础学习和实现一个大语言模型，让读者仅需Python、PyTorch和基本的深度学习知识即可掌握其各个组成部分及训练微调代码。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30