字节Dolphin:多模态文档图像解析模型

模型描述

Dolphin(通过异构锚点提示的文档图像解析)是一种新颖的多模态文档图像解析模型,采用“分析后解析(analyze-then-parse)”的范式。该模型通过两阶段的方法,专为处理文本段落、图表、公式和表格等高度交织的文档元素设计,以应对复杂文档理解的挑战。

概述

文档图像解析面临的主要挑战在于其内容元素高度交织,如文本段落、图表、公式和表格。Dolphin通过以下两阶段方法应对这些挑战:

  • 第一阶段:在页面层级进行全面的版面布局分析,生成符合自然阅读顺序的元素序列
  • 第二阶段:基于异构锚点和任务特定的提示词,进行文档元素的高效并行解析

Dolphin在多种页面级和元素级解析任务中表现出色,并凭借轻量级架构与并行解析机制实现了卓越的解析效率。

模型架构

Dolphin 基于视觉编码器-解码器架构,使用 Transformer 结构构建:

  • 视觉编码器:基于 Swin Transformer,用于从文档图像中提取视觉特征
  • 文本解码器:基于 MBart,用于从视觉特征中解码出文本内容
  • 提示词接口:通过自然语言提示控制具体的解析任务

该模型已实现为 Hugging Face 的 VisionEncoderDecoderModel,可无缝集成至 Transformers 生态系统中使用。

参考文献:
[1] https://huggingface.co/ByteDance/Dolphin
[2] https://github.com/bytedance/Dolphin
[3] https://sitammeur-dolphin-llamacpp.hf.space/



知识星球服务内容:Dify源码剖析及答疑,Dify对话系统源码,NLP电子书籍报告下载,公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群

(文:NLP工程化)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往