PDF解剖大师来了！LandingAI开源神器，这个Python库让百页文档秒变结构化数据！

复杂文档处理是数据分析的痛点：表格嵌套、图表混杂、超长PDF，传统OCR（如Tesseract）或解析库（如PyMuPDF）常因布局复杂而失准。

LandingAI 团队在 GitHub 上开源了一款强大的Python库：Agentic-Doc，专为从复杂文档中提取结构化数据而设计。

它封装LandingAI的Agentic Document Extraction API，支持从PDF、图片、URL提取结构化数据（表格、图表、文本等）。

还能通过计算机视觉和LLM，自动分割超长文档（100+页），并行处理，输出层次化JSON+Markdown，支持边界框可视化。

最新版新增批量解析、错误重试和可视化调试。极大地提升了文档处理的效率和准确性。

核心功能

• 超长 PDF 支持：可处理 100+ 页文档，自动分页切割与并行处理。
• 结构化信息提取：结合计算机视觉+LLM，准确解析表格、图表、图片，输出层次化JSON，保留元素位置。
• 边界框可视化：可选的边界框片段和全页可视化，支持将基础信息保存为图像。
• 智能重试机制：针对 LLM 超时、并发限制自动分页 + 重试。
• 多格式支持：支持 PDF、图片（jpg/png）、文档 URL。
• 批量处理能力：可并行批量解析多个文档，效率极高。

快速入手

Agentic-Doc 本质上是一个 Python 库，可通过 pip 命令快速一键安装。

pip install agentic-doc

然后需要将API密钥设置为环境变量（LandingAI API Key）：

export VISION_AGENT_API_KEY=<your-api-key>

从一份文档中提取数据，并以Markdown和结构化块的形式返回结果。

from agentic_doc.parse import parse

# Parse a local file
result = parse("path/to/image.png")
print(result.markdown)  # Get the extracted data as markdown
print(result.chunks)  # Get the extracted data as structured chunks of content

# Parse a document from a URL
result = parse("https://example.com/document.pdf")
print(result.markdown)

# Legacy approach (still supported)
from agentic_doc.parse import parse_documents
results = parse_documents(["path/to/image.png"])
parsed_doc = results[0]

从多个文档中提取数据

from agentic_doc.parse import parse

# Parse multiple local files
file_paths = ["path/to/your/document1.pdf", "path/to/another/document2.pdf"]
results = parse(file_paths)
for result in results:
    print(result.markdown)

# Parse and save results to a directory
result_paths = parse(file_paths, result_save_dir="path/to/save/results")
# result_paths: ["path/to/save/results/document1_20250313_070305.json", ...]

当然还有更多功能用法，比如：连接器等使用指南，直接前往项目文档查看即可。

使用场景

• 发票/合同解析：从 PDF 中提取关键字段、表格、签章等内容
• 科研论文抽取：抽取论文中的图表、公式、数据集描述等结构信息
• 财务报告结构还原：自动识别密集表格并转为结构化 JSON 或 CSV
• 图像文档处理：从插图、扫描文档中提取可用内容并可视化
• RAG 文档预处理：将复杂 PDF 转为结构化文档供 LLM 使用

写在最后

复杂文档处理的痛点让人崩溃：表格嵌套、图表混杂、超长PDF解析慢。

Agentic-Doc 是复杂文档解析又一开源力作之一。它通过计算机视觉+LLM，自动分割并行处理100+页PDF，精准提取表格、图片、图表，输出JSON+Markdown，边界框可视化让调试直观。

GitHub 项目地址：https://github.com/landing-ai/agentic-doc

● 一款改变你视频下载体验的神器：MediaGo

● 字节把 Coze 核心开源了！可视化工作流引擎 FlowGram 上线，AI 赋能可视化流程！

● 英伟达开源语音识别模型！0.6B 参数登顶 ASR 榜单，1 秒转录 60 分钟音频！

● 开发者的文档收割机来了！这个开源工具让你一小时干完一周的活！

● PDF文档解剖术！OCR神器+1，这个开源工具把复杂排版秒变结构化数据！

（文：开源星探）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

核心功能

快速入手

使用场景

写在最后

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复