字节开源视觉-语言多模态大模型,AI理解现实世界的能力越来越强了。

字节开源的Seed1.5-VL是视觉-语言多模态大模型,支持多种复杂任务如盲人判断红绿灯和智能导盲。其包含5.32亿参数视觉编码器和200亿激活参数混合专家大语言模型,已在多个公开基准中表现出色。

GitHub Actions 工作流中运行 Claude Code,连接macOS Apple Notes的MCP服务器

本文介绍了多个AI相关的项目和工具,包括Claude Code Base Action、MMaDA、Pocket Flow Project Template、Notes MCP 和 KVoiceWalk。它们分别涵盖了代码生成、多模态扩散大语言模型、LLM项目模板、跨平台笔记服务及语音克隆等应用场景。