阿里巴巴开源需OCR的文档处理模型:mPLUG-DocOwl 1.5

项目简介


阿里巴巴、人大开源的一款无需OCR的文档处理模型:mPLUG-DocOwl 1.5,它可以原生理解文档、网页、表格、图表,看得懂复杂的商业报告、网页截图、数据表格。


特点:

  • 支持结构感知文档解析、表格转Markdown、图表转Markdown。

  • 支持多粒度文本识别和文本接地

  • 支持用简单的短语或详细的解释来回答问题。

  • 开源

    • ✅ 训练数据:DocStruct4M、DocReason25K、DocDownsteam-1.0

    • ✅ 多粒度文本本地化评估集:DocLocal4K

    • ✅ Model: DocOwl1.5-stage1, DocOwl1.5, DocOwl1.5-Chat, DocOwl1.5-Omni

    • ✅ 模型推理和评估的源代码。

    • ✅ ModelScope 和 HuggingFace 在线演示。

    • ✅ 启动本地演示的源代码。

    • ✅ 训练代码。

演示

🤗 HuggingFace空间

 ModelScope 空间

训练和评估数据集

Dataset Download Link
DocStruct4M
  • HuggingFace: mPLUG/DocStruct4M

  • ModelScope: iic/DocStruct4M

DocDownstream-1.0
  • HuggingFace: mPLUG/DocDownstream-1.0

  • ModelScope: iic/DocDownstream-1.0

DocReason25K
  • HuggingFace: mPLUG/DocReason25K

  • ModelScope: iic/DocReason25K

DocLocal4K
  • HuggingFace: mPLUG/DocLocal4K

  • ModelScope: iic/DocLocal4K

DocStruct4M

DocStruct4M是统一结构学习的训练集,涵盖文档图像、网页、表格、图表和自然图像。它由用于结构感知解析任务的约 300 万个样本和用于多粒度文本本地化任务的约 100 万个样本组成。


从 Huggingface mPLUG/DocStruct4M 下载 DocStruct4M 数据集。训练图像(~311G)被分成8个文件,运行以下命令来准备训练和验证图像。

cat partial-imgs* > imgs.tar.gztar -zxvf imgs.tar.gztar -zxvf val_imgs.tar.gz

数据集按以下格式组织:

DocStruct4M├── imgs├── val_imgs├── multi_grained_text_localization.jsonl├── struct_aware_parse.jsonl├── val.jsonl

./imgs 和 ./val_imgs 目录分别包含训练样本和验证样本的图像。

DocDownstream-1.0

DocDownstream-1.0是10个富文本图像理解基准的组合,包括DocVQA、InfographicsVQA、DeepForm、KleisterCharity、WikiTableQuestions、TabFact、ChartQA、TextCaps、TextVQA和VisualMRC,涵盖信息提取、视觉问答、自然语言推理和图像字幕。所有任务都统一以视觉问答的形式进行。


从 Huggingface mPLUG/DocDownstream-1.0 下载 DocDownstream-1.0 数据集。镜像(~70G)被分成2个文件,运行以下命令来准备镜像。

cat partial-imgs* > imgs.tar.gztar -zxvf imgs.tar.gz

数据集按以下格式组织:

DocDownstream-1.0├── meta├── test├── imgs├── train.jsonl├── val.jsonl

./imgs 目录包含训练/验证/测试样本的图像。 train.jsonl 和 val.jsonl 是用于训练和验证的 10 个数据集的集成样本。 train.jsonl 中有大约 57w 个样本。 ./test 目录包含每个数据集的测试文件。 ./meta 目录包含用于评估的元文件。

DocReason25K 

DocReason25K 是一个指令调优集,带有视觉文档理解的详细解释。它是基于 DocVQA、InfographicsVQA、WikiTableQuestions、VisualMRC、ChartQA 和 TextVQA 的训练样本构建的。GPT3.5/GPT4V给出了详细解释,并根据手动注释的简单答案进一步过滤。


从 Huggingface mPLUG/DocReason25K 下载 DocReason25K 数据集。数据集按以下格式组织:

DocReason25K├── imgs├── detailed_explanation.jsonl

DocLocal4K

DocLocal4K 是多粒度文本本地化的评估集,涵盖文本识别和文本基础任务。


从 Huggingface mPLUG/DocLocal4K 下载 DocLocal4K 数据集。数据集按以下格式组织:

DocLocal4K├── imgs├── text_grounding.jsonl├── text_recognition.jsonl

项目链接

论文:https://arxiv.org/pdf/2403.12895

github:https://github.com/X-PLUG/mPLUG-D

扫码加入技术交流群,备注「开发语言-城市-昵称

(文:GitHubStore)

发表评论