解锁文档处理新高度!这个开源神器支持OCR+机器学习,超丰富的API接口,效率翻倍!

 

在数字化时代,文档处理是企业和开发者日常工作中不可避免的挑战。Word、PDF、扫描件、Excel表格等格式繁多,整理为统一格式耗时费力。

今天给大家推荐一款 ISPRAS 团队开源的全能型文档提取与转换工具:Dedoc

Dedoc凭借先进的机器学习和OCR技术,不仅能处理Office文档,还能从PDF、扫描件中智能提取表格、文本格式和逻辑结构,堪称文档处理领域的“瑞士军刀”。

支持将任意文档自动转为统一结构化 JSON 格式,方便二次处理、索引、摘要、问答等场景。

核心功能亮点

  • • 多文档格式支持:解析DOC/DOCX、PPTX、PDF、Excel、CSV、TXT、PNG/JPG、HTML等,覆盖90%+文档场景。
  • • 文档逻辑结构提取:自动识别标题层级、嵌套列表。
  • • 复杂表格解析:智能识别和提取表格数据,支持复杂多页表格。
  • • OCR扫描件处理:Tesseract 5.0+图像预处理,自动纠正文档方向,解析无文本层PDF/图片。
  • • 元数据与格式:提取字体、缩进、粗体等样式,附加page_id等元数据。
  • • 批量与嵌套处理:处理ZIP/RAR压缩包内文档,自动解析附件。

快速入手

Dedoc的安装和使用非常友好,官方提供Demo体验、Docker部署、pip安装及详细文档指南。

新手建议直接使用官方Demo网站,只需要设置好相关参数,上传文档即可快速处理。

Demo 地址:https://dedoc-readme.hf.space

该项目有一个REST API,还可以在Docker容器中运行它。

# 拉取镜像
docker pull dedocproject/dedoc

# 运行容器
docker run -p 1231:1231 --rm dedocproject/dedoc python3 /dedoc_root/dedoc/main.py

当API服务运行成功后,就可以在本地进行调用:

with open(filename, "rb") as file:
    files = {"file": (filename, file)}
    r = requests.post("http://localhost:1231/upload", files=files, data=dict())
    result = r.content.decode("utf-8")

然后会以json输出解析内容。

还可以使用 pip 安装dedoc(Python环境3.8版本及以上)

pip install "dedoc[torch]"

更多API使用可以参考文档来进行操作。

使用文档:https://dedoc.readthedocs.io/en/latest

结构提取器展示:

写在最后

Dedoc 作为ISPRAS团队的开源力作,以其强大的多格式支持、智能结构提取和OCR能力,为文档处理带来了革命性突破。

无论是处理复杂PDF、扫描件,还是提取表格和元数据,Dedoc都能提供高效、精准的解决方案。

其灵活的部署方式和对RAG的天然支持,使其成为开发者构建智能文档系统的理想选择之一,适合配合 LLM 做一些文档智能问答、摘要、内容重建等任务。

GitHub 项目地址:https://github.com/ispras/dedoc

 

● 一款改变你视频下载体验的神器:MediaGo

● 字节把 Coze 核心开源了!可视化工作流引擎 FlowGram 上线,AI 赋能可视化流程!

● 英伟达开源语音识别模型!0.6B 参数登顶 ASR 榜单,1 秒转录 60 分钟音频!

● 开发者的文档收割机来了!这个开源工具让你一小时干完一周的活!

● PDF文档解剖术!OCR神器+1,这个开源工具把复杂排版秒变结构化数据!








(文:开源星探)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往