专注于将图像文档转换为结构化文本SmolDocling 下午11时 2025/03/25 作者 GitHubStore 项目简介 SmolDocling-256M-preview:IBM Research 团队开发的多模态文档处理模型,专注于将图像文档转换为结构化文本,无缝对接 Docling 生态 核心特性 1. 多模态能力· 支持图像+文本联合输入,可处理扫描文档、截图等图像形式的文档 · 保留原始文档的布局信息(通过边界框定位) · 支持 OCR 文字识别、代码块识别、数学公式转换(LaTeX)、表格/图表解析等 2. 结构化输出· 独创的 DocTags 标记系统(类似轻量级 HTML 标签) · 支持导出为 Markdown/HTML/JSON 格式 · 保持文档元素的结构关系(如图文对应、列表层级等) 3. 高效处理 · 基于 2.56 亿参数的轻量级模型(Idefics3 架构) · 使用 VLLM 推理加速,A100 GPU 上平均每页处理仅需 0.35 秒 · Apache 2.0 开源协议,支持商业应用 技术亮点精准元素识别 · 表格转换(OTSL 格式) · 代码块保留缩进格式 · 数学公式转 LaTeX · 图表数据提取(持续优化中) 指令交互 “Convert this page to docling” # 完整转换 “Convert chart to table <loc_xy>” # 指定区域处理 “OCR text in <bounding_box>” # 带坐标的OCR扩展兼容性 · 无缝对接 Docling 生态系统 · 支持批量处理和多页文档(开发中) 应用场景企业文档数字化 · 合同/报告扫描件转结构化文本 · 自动化表格数据提取学术研究 · 论文截图转可编辑公式 · 文献图表数据解析知识管理 · 图片笔记转 Markdown · 白板内容数字化 项目链接 https://huggingface.co/ds4sd/SmolDocling-256M-preview 扫码加入技术交流群,备注「开发语言-城市-昵称」 (文:GitHubStore) 欢迎分享