自托管的微软OmniParser图像转文本模型,让图像解析变得轻而易举
微软 OmniParser 图像识别模型的自托管版本,包含训练数据集和 FastAPI 服务器实现。通过 fly.io 简单部署,并提供 API 进行图像解析与边界框绘制等操作。
微软 OmniParser 图像识别模型的自托管版本,包含训练数据集和 FastAPI 服务器实现。通过 fly.io 简单部署,并提供 API 进行图像解析与边界框绘制等操作。
Gurubase 是一个开源 RAG 系统,支持通过网页、PDF、视频和 GitHub 仓库创建 AI 驱动的问答助手(’Gurus’)。它允许嵌入网站提问,并提供实时更新等功能。
苹果今日宣布WWDC2025将于6月9日至13日举行。iOS19、iPadOS19、macOS16等系统将亮相,设计风格与VisionOS类似,图标圆润透明。Siri功能或将重大调整并延期发布。国行版Apple Intelligence也有望在此次WWDC上公布。
阿里巴巴开源的Qwen2.5-Omni大模型支持全模态感知与生成、实时交互和语音生成。Cursor Auto Register帮助用户自动化注册Cursor账号。字节跳动开发的FlowGram.AI是节点式工作流引擎,利用AI能力增强工作流程。n8n MCP Server是一个让AI助手通过自然语言控制n8n工作流的模型上下文协议服务器。LangGraph CUA库构建具有计算机操作能力的智能代理系统。
人形机器人小麦在发布会上展示了工业和商业场景中的应用能力,包括在工厂进行零部件上下料、物料搬运等任务,在商场担任停车场交通疏导员、汽车门店导购、餐厅服务员等多种角色。魔法原子公司透露了其首款具身智能大模型‘原子万象’的技术细节,并计划今年推出400台人形机器人进入工业和商业场景。
OpenAI宣布其Agents SDK支持Anthropic的MCP服务协议,使得开发者能够轻松利用各种MCP服务器为AI智能体提供丰富的工具能力。这一举动标志着MCP成为行业标准,将加速下一代AI工作流的发展。
ClaudeDesktopCommander让AI能在电脑上执行命令和编辑文件,支持终端控制、长时运行命令和后台执行等。
MoshiVis利用7B参数的Moshi模型新增适配器参数支持讨论图像,兼容PyTorch、Rust和MLX三种后端,具备实时视觉对话能力。