开源社区终于迎来PDF解析的”六边形战士”!百万页处理成本直降32倍!

 

在 PDF 文档解析 领域,准确提取文本、表格、公式等结构化数据一直是一个难题。

许多 OCR 工具在遇到复杂布局、手写内容或数学公式时,往往会出现信息丢失、顺序错乱甚至误识别的情况。

就在昨天由 Ai2 最新推出的 olmOCR 引发关注,体验后效果拉满,获得很多大佬的点赞转发。

它通过 Qwen2-VL-7B-Instruct(阿里多模态模型) 进行训练,专门针对 PDF 和文档图像 提取 干净、结构化的纯文本,并以 Markdown 格式输出,极大地提升了文本解析的 精准度、可读性和可用性。

它特别擅长处理复杂布局,如表格、方程式和手写内容,适合需要高精度文本提取的场景。

背景问题

语言模型(LMs)需要高质量的纯文本数据才能表现良好,但 PDF 等电子文档格式的设计目标是页面渲染,而非逻辑文本结构。这导致以下挑战:

  • • 难以准确提取文档中的标题、段落、表格和方程式。
  • • 复杂布局(如多栏、多页表格)可能导致阅读顺序混乱。
  • • 传统 OCR 工具在处理手写内容和方程式时表现不佳。

olmOCR 旨在解决这些问题,提供高效、准确的文本提取方案。

(实测图源:@karminski-牙医)

olmOCR 的核心优势

1、高效精准的 PDF 文本提取

通过在 25 万页多样化 PDF 数据集上微调训练,能够应对 复杂布局(如 多栏排版)、嵌入表格、数学公式 和 手写文本 等挑战。

结合 “文档锚定” (document anchoring) 技术,提高 文本解析质量,在 标题、段落、表格、方程式 等元素提取方面表现出色。

2、Markdown 格式输出

olmOCR 会生成易于解析的 Markdown 格式文本,能准确处理方程式、表格和手写内容。这种格式便于后续使用,如与语言模型集成或文档编辑。

3、低成本效益

处理 100 万页 PDF 的成本约为 190 美元,相比使用 GPT-4o API 的批处理模式,成本仅为其 1/32。

这使得 olmOCR 成为预算有限的用户的理想选择,特别是在处理学术论文、法律文档等大批量 PDF 时,性价比极高。

4、完全开源

olmOCR 完全开源,并发布了 模型权重、训练数据集、代码,可自由部署使用。支持 多 GPU 扩展,可以在本地或云端进行高效批量处理。

快速使用

olmOCR 的使用也非常方便,提供两种方式:在线Web 和 本地部署。

① 在线Web

可以直接访问官方上线的网页端,可直接体验,上传文档进行解析提取。

体验地址:https://olmocr.allenai.org

② 本地部署

olmOCR 对硬件要求还是有的,需要有英伟达显卡支持。

如果是 Linux 环境需要安装一下依赖:

sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools

然后就是需要创建一个Python虚拟环境,并克隆项目&安装依赖

conda create -n olmocr python=3.11
conda activate olmocr

git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .

如果需要在GPU上运行推理,还要使用flashinfer安装sglang。

pip install sgl-kernel==0.0.3.post1 --force-reinstall --no-deps
pip install "sglang[all]==0.4.2" --find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/

本地使用示例,比如转换单个PDF:

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf

结果将存储为JSON格式至./localworkspace。

将结果与原始 PDF 并排查看命令:

python -m olmocr.viewer.dolmaviewer localworkspace/results/output_*.jsonl

性能评估

Ai2 团队对 olmOCR 进行了详细的对比测试,评估其与 Marker、MinerU、GOT-OCR 2.0 等主流 PDF 解析工具的性能差距。

Elo 评分:1800+(显著优于竞品)

在实际用户评估中,olmOCR 的优选比例:

  • • 对比 Marker:61.3%
  • • 对比 GOT-OCR 2.0:58.6%
  • • 对比 MinerU:71.4%(表现最优)

从以上数据可以看出,olmOCR 在各项任务中均优于现有主流工具,尤其在 表格解析、公式识别、多栏布局处理 等方面表现突出。

写在最后

olmOCR 作为 Ai2 最新推出的 高效 PDF 解析工具,不仅在 准确率、解析能力、成本效益 等方面全面超越现有工具,还开源了现有模型及代码,完全自主。

特别适合需要处理复杂文档的用户,其高性能、低成本和开源特性使其成为研究者和开发者的首选。无论是学术研究还是商业应用,也都能提供高效、可靠的解决方案。

GitHub 项目地址:https://github.com/allenai/olmocr

● 一款改变你视频下载体验的神器:MediaGo

● 新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star

● 最新最全 VSCODE 插件推荐(2023版)

● Star 50.3k!超棒的国产远程桌面开源应用火了!

● 超牛的AI物理引擎项目,刚开源不到一天,就飙升到超9K Star!突破物理仿真极限!









(文:开源星探)

欢迎分享

发表评论