项目简介
阿里巴巴、人大开源的一款无需OCR的文档处理模型:mPLUG-DocOwl 1.5,它可以原生理解文档、网页、表格、图表,看得懂复杂的商业报告、网页截图、数据表格。
特点:
-
支持结构感知文档解析、表格转Markdown、图表转Markdown。
-
支持多粒度文本识别和文本接地
-
支持用简单的短语或详细的解释来回答问题。
-
开源
-
✅ 训练数据:DocStruct4M、DocReason25K、DocDownsteam-1.0
-
✅ 多粒度文本本地化评估集:DocLocal4K
-
✅ Model: DocOwl1.5-stage1, DocOwl1.5, DocOwl1.5-Chat, DocOwl1.5-Omni
-
✅ 模型推理和评估的源代码。
-
✅ ModelScope 和 HuggingFace 在线演示。
-
✅ 启动本地演示的源代码。
-
✅ 训练代码。
演示
🤗 HuggingFace空间
ModelScope 空间
训练和评估数据集
Dataset | Download Link |
---|---|
DocStruct4M |
|
DocDownstream-1.0 |
|
DocReason25K |
|
DocLocal4K |
|
DocStruct4M
DocStruct4M是统一结构学习的训练集,涵盖文档图像、网页、表格、图表和自然图像。它由用于结构感知解析任务的约 300 万个样本和用于多粒度文本本地化任务的约 100 万个样本组成。
从 Huggingface mPLUG/DocStruct4M 下载 DocStruct4M 数据集。训练图像(~311G)被分成8个文件,运行以下命令来准备训练和验证图像。
cat partial-imgs* > imgs.tar.gz
tar -zxvf imgs.tar.gz
tar -zxvf val_imgs.tar.gz
数据集按以下格式组织:
DocStruct4M
├── imgs
├── val_imgs
├── multi_grained_text_localization.jsonl
├── struct_aware_parse.jsonl
├── val.jsonl
./imgs
和 ./val_imgs
目录分别包含训练样本和验证样本的图像。
DocDownstream-1.0
DocDownstream-1.0是10个富文本图像理解基准的组合,包括DocVQA、InfographicsVQA、DeepForm、KleisterCharity、WikiTableQuestions、TabFact、ChartQA、TextCaps、TextVQA和VisualMRC,涵盖信息提取、视觉问答、自然语言推理和图像字幕。所有任务都统一以视觉问答的形式进行。
从 Huggingface mPLUG/DocDownstream-1.0 下载 DocDownstream-1.0 数据集。镜像(~70G)被分成2个文件,运行以下命令来准备镜像。
cat partial-imgs* > imgs.tar.gz
tar -zxvf imgs.tar.gz
数据集按以下格式组织:
DocDownstream-1.0
├── meta
├── test
├── imgs
├── train.jsonl
├── val.jsonl
./imgs
目录包含训练/验证/测试样本的图像。 train.jsonl
和 val.jsonl
是用于训练和验证的 10 个数据集的集成样本。 train.jsonl
中有大约 57w 个样本。 ./test
目录包含每个数据集的测试文件。 ./meta
目录包含用于评估的元文件。
DocReason25K
DocReason25K 是一个指令调优集,带有视觉文档理解的详细解释。它是基于 DocVQA、InfographicsVQA、WikiTableQuestions、VisualMRC、ChartQA 和 TextVQA 的训练样本构建的。GPT3.5/GPT4V给出了详细解释,并根据手动注释的简单答案进一步过滤。
从 Huggingface mPLUG/DocReason25K 下载 DocReason25K 数据集。数据集按以下格式组织:
DocReason25K
├── imgs
├── detailed_explanation.jsonl
DocLocal4K
DocLocal4K 是多粒度文本本地化的评估集,涵盖文本识别和文本基础任务。
从 Huggingface mPLUG/DocLocal4K 下载 DocLocal4K 数据集。数据集按以下格式组织:
DocLocal4K
├── imgs
├── text_grounding.jsonl
├── text_recognition.jsonl
项目链接
论文:https://arxiv.org/pdf/2403.12895
github:https://github.com/X-PLUG/mPLUG-D
扫码加入技术交流群,备注「开发语言-城市-昵称」
(文:GitHubStore)