阿里巴巴开源需OCR的文档处理模型：mPLUG-DocOwl 1.5

项目简介

阿里巴巴、人大开源的一款无需OCR的文档处理模型：mPLUG-DocOwl 1.5，它可以原生理解文档、网页、表格、图表，看得懂复杂的商业报告、网页截图、数据表格。

特点：

支持结构感知文档解析、表格转Markdown、图表转Markdown。
支持多粒度文本识别和文本接地
支持用简单的短语或详细的解释来回答问题。
开源

✅ 训练数据：DocStruct4M、DocReason25K、DocDownsteam-1.0
✅ 多粒度文本本地化评估集：DocLocal4K
✅ Model: DocOwl1.5-stage1, DocOwl1.5, DocOwl1.5-Chat, DocOwl1.5-Omni
✅ 模型推理和评估的源代码。
✅ ModelScope 和 HuggingFace 在线演示。
✅ 启动本地演示的源代码。
✅ 训练代码。

演示

🤗 HuggingFace空间

ModelScope 空间

训练和评估数据集

Dataset	Download Link
DocStruct4M	HuggingFace: mPLUG/DocStruct4M ModelScope: iic/DocStruct4M
DocDownstream-1.0	HuggingFace: mPLUG/DocDownstream-1.0 ModelScope: iic/DocDownstream-1.0
DocReason25K	HuggingFace: mPLUG/DocReason25K ModelScope: iic/DocReason25K
DocLocal4K	HuggingFace: mPLUG/DocLocal4K ModelScope: iic/DocLocal4K

DocStruct4M

DocStruct4M是统一结构学习的训练集，涵盖文档图像、网页、表格、图表和自然图像。它由用于结构感知解析任务的约 300 万个样本和用于多粒度文本本地化任务的约 100 万个样本组成。

从 Huggingface mPLUG/DocStruct4M 下载 DocStruct4M 数据集。训练图像（~311G）被分成8个文件，运行以下命令来准备训练和验证图像。

cat partial-imgs* > imgs.tar.gztar -zxvf imgs.tar.gztar -zxvf val_imgs.tar.gz

数据集按以下格式组织：

DocStruct4M├── imgs├── val_imgs├── multi_grained_text_localization.jsonl├── struct_aware_parse.jsonl├── val.jsonl

./imgs 和 ./val_imgs 目录分别包含训练样本和验证样本的图像。

DocDownstream-1.0

DocDownstream-1.0是10个富文本图像理解基准的组合，包括DocVQA、InfographicsVQA、DeepForm、KleisterCharity、WikiTableQuestions、TabFact、ChartQA、TextCaps、TextVQA和VisualMRC，涵盖信息提取、视觉问答、自然语言推理和图像字幕。所有任务都统一以视觉问答的形式进行。

从 Huggingface mPLUG/DocDownstream-1.0 下载 DocDownstream-1.0 数据集。镜像（~70G）被分成2个文件，运行以下命令来准备镜像。

cat partial-imgs* > imgs.tar.gztar -zxvf imgs.tar.gz

数据集按以下格式组织：

DocDownstream-1.0├── meta├── test├── imgs├── train.jsonl├── val.jsonl

./imgs 目录包含训练/验证/测试样本的图像。 train.jsonl 和 val.jsonl 是用于训练和验证的 10 个数据集的集成样本。 train.jsonl 中有大约 57w 个样本。 ./test 目录包含每个数据集的测试文件。 ./meta 目录包含用于评估的元文件。

DocReason25K

DocReason25K 是一个指令调优集，带有视觉文档理解的详细解释。它是基于 DocVQA、InfographicsVQA、WikiTableQuestions、VisualMRC、ChartQA 和 TextVQA 的训练样本构建的。GPT3.5/GPT4V给出了详细解释，并根据手动注释的简单答案进一步过滤。

从 Huggingface mPLUG/DocReason25K 下载 DocReason25K 数据集。数据集按以下格式组织：

DocReason25K├── imgs├── detailed_explanation.jsonl

DocLocal4K

DocLocal4K 是多粒度文本本地化的评估集，涵盖文本识别和文本基础任务。

从 Huggingface mPLUG/DocLocal4K 下载 DocLocal4K 数据集。数据集按以下格式组织：

DocLocal4K├── imgs├── text_grounding.jsonl├── text_recognition.jsonl

项目链接

论文：https://arxiv.org/pdf/2403.12895

github：https://github.com/X-PLUG/mPLUG-D

扫码加入技术交流群，备注「开发语言-城市-昵称」

（文：GitHubStore）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30