字节Dolphin：多模态文档图像解析模型

Dolphin（通过异构锚点提示的文档图像解析）是一种新颖的多模态文档图像解析模型，采用“分析后解析（analyze-then-parse）”的范式。该模型通过两阶段的方法，专为处理文本段落、图表、公式和表格等高度交织的文档元素设计，以应对复杂文档理解的挑战。

文档图像解析面临的主要挑战在于其内容元素高度交织，如文本段落、图表、公式和表格。Dolphin通过以下两阶段方法应对这些挑战：

Dolphin在多种页面级和元素级解析任务中表现出色，并凭借轻量级架构与并行解析机制实现了卓越的解析效率。

Dolphin 基于视觉编码器-解码器架构，使用 Transformer 结构构建：

该模型已实现为 Hugging Face 的 VisionEncoderDecoderModel，可无缝集成至 Transformers 生态系统中使用。

参考文献：
[1] https://huggingface.co/ByteDance/Dolphin
[2] https://github.com/bytedance/Dolphin
[3] https://sitammeur-dolphin-llamacpp.hf.space/

知识星球服务内容：Dify源码剖析及答疑，Dify对话系统源码，NLP电子书籍报告下载，公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群。

（文：NLP工程化）