开源
TEN Turn Detection(轮次检测)
TEN Turn Detection 解决人机对话中判断用户何时停止说话的问题,支持全双工语音交互,通过分析语言模式判断是否回应,让对话更加流畅自然。
字节开源视觉-语言多模态大模型,AI理解现实世界的能力越来越强了。
字节开源的Seed1.5-VL是视觉-语言多模态大模型,支持多种复杂任务如盲人判断红绿灯和智能导盲。其包含5.32亿参数视觉编码器和200亿激活参数混合专家大语言模型,已在多个公开基准中表现出色。
这个AI浏览器代理太强了!让AI帮你自动完成复杂网页操作,微软开源新神器
Magentic-UI 是一个革命性的人机协作浏览器代理系统,由微软开源。它能通过透明可控界面让AI像真人一样操作浏览器执行复杂任务,包括表单填写、航班筛选和数据收集等。
GitHub Actions 工作流中运行 Claude Code,连接macOS Apple Notes的MCP服务器
本文介绍了多个AI相关的项目和工具,包括Claude Code Base Action、MMaDA、Pocket Flow Project Template、Notes MCP 和 KVoiceWalk。它们分别涵盖了代码生成、多模态扩散大语言模型、LLM项目模板、跨平台笔记服务及语音克隆等应用场景。
前端开发辅助神器:Stagewise,它可以连接前端UI和AI代码编辑器,让AI直接与浏览器交互
前端开发辅助工具Stagewise连接UI和AI代码编辑器,提供实时浏览器上下文信息,支持多种框架,实现便捷、精确的修改操作。