Openai发布Agent基准测试,小米开源自动驾驶框架,字节跳动发布Seed-Thinking-v1.5技术细节

文章介绍了五个项目或工具:BrowseComp、ReCamMaster、ORION、Seed-Thinking-v1.5 和 Agent-Wiz。它们分别专注于AI代理的浏览能力、视频生成、自动驾驶以及智能体的工作流安全评估等方面,涵盖了机器学习和人工智能领域的多个方向。

还没搞明白MCP,谷歌又发布Agent2Agent(A2A)协议

谷歌推出的Agent2Agent (A2A)协议旨在解决不同框架和供应商构建的AI智能体无法无缝协作的问题。该协议通过通用通信标准实现跨平台、跨应用的智能体协作,提升生产力并降低长期成本。超过50家技术合作伙伴支持A2A协议,遵循包括拥抱原生能力、基于现有标准构建等在内的五个关键设计原则。

Notion API的MCP服务器-通过指令或内容ID与Notion交互,全自动的科学研究系统Scientist-v2,

本文介绍了Notion-mcp-server、rLLM、AI Scientist-v2、PDF Document Layout Analysis和3DGRT五个项目。Notion-mcp-server为Notion API实现MCP服务器;rLLM致力于普及LLM的强化学习;AI Scientist-v2是一个全自动科研系统,可生成并撰写论文;PDF Document Layout Analysis提供PDF文档分析服务;3DGRT利用射线追踪高斯粒子渲染技术,并提出混合方法提高性能。

腾讯开源动漫生活模拟器,可扩展的移动自动化Mobile Next,上海AI实验室发布图像生成模型

Lumina-mGPT 2.0发布,支持多种图像生成任务;AnimeGamer模拟动漫生活互动,基于MLM预测游戏状态;DeepResearcher通过强化学习训练LLMs;Mobile Next简化移动自动化测试;Zola免费开源AI聊天应用,支持多模型和文件上传。

免费开源吉卜力风格图像生成,Anything-to-Audio生成音频AudioX,免费且强大的编码助手Serena

EasyControl_Ghibli是一款免费且易于使用的AI模型,生成吉卜力风格图像。AudioX是统一的扩散Transformer模型,支持多种模态输入和自然语言控制。Serena是一个免费代码助手集成LLM功能。uniOCR是通用Rust OCR引擎,提供本地及云服务。MCP Server for Milvus为LLM应用提供Milvus向量数据库访问桥梁。

字节开源MegaTTS3-轻量高效语音合成模型,Wan 团队开源 All-in-One 视频编辑框架 VACE

本文介绍了五种新兴的人工智能技术与系统:轻量级高效语音合成模型MegaTTS3、集视频创作与编辑于一体的AI模型VACE、半自动科学发现系统CodeScientist、终端AI编程助手Gemini Code,以及基于多智能体的医疗问诊框架hospital_multiagent_system。

II-Researcher答案更全面的深度研究助手,LLM直接访问和操作你的个人 WhatsApp 账户提高工作效率

II-Researcher是一款智能网页搜索工具,利用BAML函数生成问题答案;WhatsApp MCP Server通过连接Claude实现个人WhatsApp消息管理;Android MCP Server提供设备控制和截图等功能;TripoSG是基于大规模矫正流模型的先进图像到3D形状生成工具;Optexity通过人类演示训练AI完成Web任务。

3D也可以vibe-涂鸦草图Vibe Draw,使用Gemini虚拟试穿,免费搜索 API 提供实时 Google 搜索结果

一系列AI工具介绍,包括Vibe Draw、OpenDeepSearch、AI-ClothingTryOn、pdf-ocr-obsidian和Free-Search等,这些工具分别专注于3D建模、搜索优化、虚拟试穿、PDF转Markdown及实时搜索引擎。

阿里巴巴开源的全模态大模型Qwen2.5-Omni,字节跳动开发的节点式工作流引擎,自动化注册Cursor Pro

阿里巴巴开源的Qwen2.5-Omni大模型支持全模态感知与生成、实时交互和语音生成。Cursor Auto Register帮助用户自动化注册Cursor账号。字节跳动开发的FlowGram.AI是节点式工作流引擎,利用AI能力增强工作流程。n8n MCP Server是一个让AI助手通过自然语言控制n8n工作流的模型上下文协议服务器。LangGraph CUA库构建具有计算机操作能力的智能代理系统。

三个实用的mcp server,Openai和google分别更新大模型

文章介绍了多个Claude相关的工具和模型,包括Desktop Commander MCP、mcp-hfspace MCP Server、Code Runner MCP Server等,详细描述了它们的功能和应用场景,并介绍了一个新的图像生成模型GPT-4o及其改进之处。同时还提到了Google最新智能AI模型Gemini 2.5的性能提升和多模态能力。