无需 OCR 就能从各类文档中提取结构化信息的本地化开源工具docext


 

文档翻译

docext演示

概述

docext是一个无需OCR的工具,用于从发票、护照等文档图像中提取结构化信息。它利用视觉语言模型(VLMs)准确识别并提取文档中的字段数据和表格信息。

智能文档处理排行榜追踪并评估视觉语言模型在OCR、关键信息提取(KIE)、文档分类、表格提取等智能文档处理任务中的表现。

功能特点

智能文档处理排行榜

该基准测试评估七个关键文档智能挑战:

  • • 关键信息提取(KIE):从非结构化文档文本中提取结构化字段
  • • 视觉问答(VQA):通过问答评估对文档内容的理解
  • • 光学字符识别(OCR):测量打印和手写文本的识别准确率
  • • 文档分类:评估模型对各类文档的分类准确性
  • • 长文档处理:测试模型对长篇、上下文丰富文档的推理能力
  • • 表格提取:从复杂表格格式中提取结构化数据的基准测试
  • • 置信度分数校准:评估模型预测的可靠性和置信度

🔍 详细信息请参阅发布博客

📊 实时排行榜: https://idp-leaderboard.org

有关设置说明和其他详情,请查看智能文档处理排行榜完整功能指南

Docext核心功能

  • • 灵活提取:可自定义字段或使用预建模板
  • • 表格提取:从文档中提取结构化表格数据
  • • 置信度评分:获取提取信息的置信度水平
  • • 本地化部署:完全在自有基础设施上运行(支持Linux、MacOS)
  • • 多页支持:处理多页文档
  • • REST API:提供编程接口便于系统集成
  • • 预建模板:常见文档类型的即用模板:
    • • 发票
    • • 护照
    • • 可为其他模板添加/删除新字段/列

更多功能详情,请查看功能指南

项目地址

https://github.com/NanoNets/docext/blob/main/README.md

 




扫码加入技术交流群,备注「开发语言-城市-昵称

(文:GitHubStore)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往