Gemini 2.5 全系更新,Deep Think 加持碾压 OpenAI

Google 在 I/O 2025 大会发布了多项重要更新,包括 Gemini 2.5 全系更新、Gemma 3 系列的内存优化和 Imagen 4 的图像细节提升等。同时,Veo 3 支持视频与音频同时生成,Imagen 4 提升了写实和抽象风格图片处理能力,并集成至多个 Google 软件产品中。

无需 OCR 就能从各类文档中提取结构化信息的本地化开源工具docext

docext是无需OCR的新工具,用于从发票和护照等文档图像中提取结构化信息。它利用视觉语言模型准确识别并提取数据和表格信息。智能文档处理排行榜追踪和评估其在关键任务中的表现。

后端服务器的Vibe Coding Agent,扩散模型的图像修复PixelHacker,Mem0的MCP服务器模板

AutoBE 是 AI 驱动的后端服务器代码生成工具,结合瀑布模型和螺旋模型。PixelHacker 是一种图像修复模型,采用潜在类别指导技术实现结构和语义一致性。MCP-Mem0 为 AI 代理提供长期记忆存储、检索和搜索功能。Agents Tools 提供一套统一且全面的构建、扩展和部署 AI Agent 的工具集。MCP Registry 是一个社区驱动的 MCP 服务器注册服务,用于发现和管理 MCP 实现及其元数据。

自我进化的多智能体自动化系统EvoAgentX

酷是一款多智能体自动化系统EvoAgentX,适用于复杂AI场景如医疗诊断和电商订单处理。它能自动生成工作流并集成进化算法优化智能体行为与结构。文章还介绍了如何安装、配置和使用EvoAgentX进行任务生成及优化。