专注于将图像文档转换为结构化文本SmolDocling

项目简介

SmolDocling-256M-preview:IBM Research 团队开发的多模态文档处理模型,专注于将图像文档转换为结构化文本,无缝对接 Docling 生态
核心特性
1. 多模态能力· 支持图像+文本联合输入,可处理扫描文档、截图等图像形式的文档 · 保留原始文档的布局信息(通过边界框定位) · 支持 OCR 文字识别、代码块识别、数学公式转换(LaTeX)、表格/图表解析等
2. 结构化输出· 独创的 DocTags 标记系统(类似轻量级 HTML 标签) · 支持导出为 Markdown/HTML/JSON 格式 · 保持文档元素的结构关系(如图文对应、列表层级等)
3. 高效处理 · 基于 2.56 亿参数的轻量级模型(Idefics3 架构) · 使用 VLLM 推理加速,A100 GPU 上平均每页处理仅需 0.35 秒 · Apache 2.0 开源协议,支持商业应用
技术亮点精准元素识别 
· 表格转换(OTSL 格式) 
· 代码块保留缩进格式
 · 数学公式转 LaTeX
 · 图表数据提取(持续优化中)
指令交互
“Convert this page to docling”     # 完整转换 
“Convert chart to table <loc_xy>”  # 指定区域处理
“OCR text in <bounding_box>”       # 带坐标的OCR扩展兼容性
 · 无缝对接 Docling 生态系统 · 支持批量处理和多页文档(开发中)

应用场景企业文档数字化
 · 合同/报告扫描件转结构化文本
 · 自动化表格数据提取学术研究
· 论文截图转可编辑公式
 · 文献图表数据解析知识管理 
· 图片笔记转 Markdown 
· 白板内容数字化

项目链接

https://huggingface.co/ds4sd/SmolDocling-256M-preview

扫码加入技术交流群,备注开发语言-城市-昵称

(文:GitHubStore)

欢迎分享

发表评论