阿里巴巴开源Qwen3 Embedding 多语言排行榜中排名第一,微软开源GUI-Actor 无坐标的GUI代理视觉语言模型

关注我,记得标星⭐️不迷路哦~



✨ 1: Qwen3 Embedding

Qwen3:多功能文本嵌入与排序模型

Qwen3 Embedding 模型系列,专为文本嵌入和排序任务而设计,基于 Qwen3 系列的密集基础模型构建。它提供了一系列不同规模(0.6B、4B 和 8B)的文本嵌入和重排序模型,继承了其基础模型的多语言能力、长文本理解和推理能力。该系列在包括文本检索、代码检索、文本分类、文本聚类和双文本挖掘在内的多项文本嵌入和排序任务中取得了重大进展。

  1. 多功能性
    :嵌入模型在各种下游应用评估中都实现了最先进的性能。8B 大小的嵌入模型在 MTEB 多语言排行榜中排名第一(截至 2025 年 6 月 5 日,得分为 70.58),而重排序模型在各种文本检索场景中表现出色。
  2. 全面灵活性
    :Qwen3 Embedding 系列为嵌入和重排序模型提供了全方位的尺寸(从 0.6B 到 8B),以满足优先考虑效率和有效性的不同用例。开发人员可以无缝地组合这两个模块。此外,嵌入模型允许跨所有维度灵活定义向量,并且嵌入和重排序模型都支持用户定义的指令,以增强特定任务、语言或场景的性能。
  3. 多语言能力
    :Qwen3 Embedding 系列支持 100 多种语言,这得益于 Qwen3 模型的多语言能力。这包括各种编程语言,并提供强大的多语言、跨语言和代码检索能力。

地址:https://github.com/QwenLM/Qwen3-Embedding

✨ 2: GUI-Actor

GUI-Actor:无坐标的GUI代理视觉定位

GUI-Actor 是一个视觉语言模型 (VLM),专门用于图形用户界面 (GUI) 的操作和交互。该项目旨在克服现有基于坐标生成的 GUI 交互方法的局限性,提出了一种无需坐标的、基于动作头的视觉定位方法,并使用一个验证器来选择最佳操作区域,从而更接近人类与数字界面的交互方式。
该项目通过动作注意力机制增强的VLM实现无需坐标的GUI交互,从而更贴近人类行为方式。通过引入定位验证器,该项目能够进一步提升性能,并且在多个GUI定位基准测试中达到领先水平,并且在处理未见过的屏幕分辨率和布局时,依然保持有效性和泛化能力。

主要功能、核心要点和关键特性:

  1. 坐标无关的 GUI 定位:
     提出了一种新的方法,避免了直接生成屏幕坐标,而是通过注意力机制直接定位和交互目标元素,更符合人类直觉。
  2. 动作头增强的 VLM:
     通过添加动作头到 VLM 中,实现了坐标无关的 GUI 定位。
  3. 候选区域生成:
     能够一次性生成多个候选的操作区域,为后续的搜索策略提供了更大的灵活性。
  4. 定位验证器:
     设计了一个验证器来评估和选择最合理的操作区域,可以与其他定位方法集成以进一步提升性能。
  5. SOTA 性能:
     在多个 GUI 动作定位基准测试中取得了最先进的性能,尤其是在 ScreenSpot-Pro 数据集上超越了更大的模型。
  6. 模型和代码发布:
     提供了基于 Qwen2-VL 的模型训练、推理代码和模型权重。
  7. 支持多种 backbone VLM
    :支持基于 Qwen2-VL 和 Qwen2.5-VL 的模型。

地址:https://github.com/microsoft/GUI-Actor

✨ 3: MonkeyOCR

基于结构-识别-关系三元组的文档解析:MonkeyOCR

MonkeyOCR 是一个用于文档解析的项目,它采用了一种名为“结构-识别-关系”(Structure-Recognition-Relation, SRR)的三元组范式。该项目旨在简化传统模块化方法中多工具流程,并避免大型多模态模型在全页文档处理上的低效率问题。

地址:https://github.com/Yuliang-Liu/MonkeyOCR

✨ 4: Gemini for Claude Code

Gemini赋能Claude Code:Anthropic兼容代理

    • 核心功能:
       该项目作为一个桥梁,使您能够将Google的Gemini模型与Claude Code结合使用。它在Anthropic格式(由Claude Code使用)和Gemini格式(通过LiteLLM)之间转换API请求和响应,从而实现无缝集成。
    • 模型映射:
       项目能够智能地将Claude Code模型请求(例如,“haiku”,“sonnet”,“opus”别名)映射到您选择的Gemini模型。
    • LiteLLM集成:
       项目利用LiteLLM与Gemini API进行稳健而灵活的交互。
    • 增强的流式传输支持:
       项目能够处理来自Gemini的流式传输响应,并具有强大的错误恢复功能,可处理格式错误的块和API错误。
    • 完整的Claude Code工具使用:
       项目在Gemini格式和Claude Code工具使用之间进行转换(功能调用),并能可靠地处理工具结果。
    • 高级错误处理:
       针对常见的Gemini API问题,项目提供了具体且可操作的错误消息,并具有自动回退策略。
    • 弹性架构:
       通过智能重试逻辑和回退到非流式传输模式,项目可以优雅地处理Gemini API的不稳定性。
    • 诊断端点:
       项目包括/health/test-connection,便于排除故障。
    • Token计数:
       项目提供与Claude Code兼容的/v1/messages/count_tokens端点。
    • 错误恢复:
       项目自动检测并处理来自Gemini流的格式错误的JSON块。
    • 智能重试逻辑:
       项目采用指数退避和可配置的重试限制,用于处理流式传输错误。
    • 优雅的回退:
       当流式传输失败时,项目无缝切换到非流式传输模式。
    • CLAUDE.MD文件:
       项目包含的CLAUDE.MD文件对于确保Gemini有效地理解和响应Claude Code的独特命令结构、工具使用模式和所需的输出格式至关重要。必须将其复制到您的项目目录中。

    地址:https://github.com/coffeegrind123/gemini-code

    ✨ 5: CircuitManus

    CircuitManus:基于Python的通用智能体平台

    CircuitManus是一个基于Python构建的通用型高级异步智能体平台,通过集成大型语言模型(LLM)和可扩展的工具集,赋能自动化各类复杂任务,当前版本专注于电路设计领域,但具备轻松扩展至其他领域的能力。它集成了FastAPI WebSocket服务器和现代Web UI,提供完整的智能交互体验。核心框架遵循经典的感知-规划-行动-观察-响应智能体循环模型,并具备强大的容错和自我修正能力。平台通过WebSocket实现后端Agent核心与前端Web界面的无缝实时交互,专为Windows环境优化和测试。

    地址:https://github.com/singularguy/CircuitManus


    (文:每日AI新工具)

    发表评论

    ×

    下载每时AI手机APP

     

    和大家一起交流AI最新资讯!

    立即前往