专注于将图像文档转换为结构化文本SmolDocling

IBM Research 的 SmolDocling-256M-preview 是一个多模态文档处理模型,专注于将图像文档转换为结构化文本,并支持 OCR、代码块识别、数学公式转换和表格/图表解析等。其核心特性包括高效处理和精准元素识别,具备轻量级模型(基于 2.56 亿参数的 Idefics3 架构)以及开源协议。

开源框架测试排名第1!开源版manus智能体协作框架OWL

OWL 是一个多智能体协作框架,支持在线搜索、多模态处理、浏览器操作和文件解析等核心功能,并提供丰富的工具包。支持多种安装方式,包括使用 uv 和 venv/pip/conda 安装,以及通过 Docker 运行。项目文档详尽,便于用户快速上手。