开源
自然人声合成Orpheus-TTS
Orpheus TTS 是基于 Llama-3b 骨干网络的开源文本到语音系统,展示了使用大型语言模型(LLMs)进行语音合成的新能力。它支持类人语音、零样本语音克隆及指导情感和语调控制等功能,且具备低延迟特性。
Claude Code的开源替代OpenCoder,AI Agent驱动的Web测试框架Magnitude,
OpenCoder是基于Vercel AI SDK的开源替代品,提供跨平台支持和MCP功能。LINE Bot MCP Server实现模型上下文协议(MCP),连接AI代理至LINE官方账号。Saiki利用自然语言控制工具和服务,简化自动化工作流程。Magnitude作为Web测试框架,通过视觉AI适应界面变化。Hi3DGen从2D图像生成高保真3D几何体,克服现有方法的局限性。
可以让Web智能体(比如网页机器人)通过发现和磨练技能来自我改进的一个框架:SkillWeaver
SkillWeaver 是一个以技能为中心的框架,它通过自主合成可重用API技能来让Web智能体自我提升。
langchain的MCP:mcpdoc,通过解析llms.txt文件提取相关信息
langchain MCP通过解析llms.txt文件解决信息问题,支持自定义文档列表、审计工具调用和控制网站访问。
AI也能操作手机了!DroidRun 让 Agent 实现智能手机自动化操作!
DroidRun 是一款新的开源 AI 手机操作工具,能像人类一样操作 Android 手机。结合视觉理解与 UI 结构提取技术,实现流畅的交互体验。它不仅能打开 App、发送消息,还能自动导航菜单、处理错误,甚至完成复杂任务如订车或录视频。项目尚未正式开源,但即将上线 GitHub 仓库。