开源社区终于迎来PDF解析的"六边形战士"！百万页处理成本直降32倍！

在 PDF 文档解析领域，准确提取文本、表格、公式等结构化数据一直是一个难题。

许多 OCR 工具在遇到复杂布局、手写内容或数学公式时，往往会出现信息丢失、顺序错乱甚至误识别的情况。

就在昨天由 Ai2 最新推出的 olmOCR 引发关注，体验后效果拉满，获得很多大佬的点赞转发。

它通过 Qwen2-VL-7B-Instruct（阿里多模态模型）进行训练，专门针对 PDF 和文档图像提取干净、结构化的纯文本，并以 Markdown 格式输出，极大地提升了文本解析的精准度、可读性和可用性。

它特别擅长处理复杂布局，如表格、方程式和手写内容，适合需要高精度文本提取的场景。

背景问题

语言模型（LMs）需要高质量的纯文本数据才能表现良好，但 PDF 等电子文档格式的设计目标是页面渲染，而非逻辑文本结构。这导致以下挑战：

• 难以准确提取文档中的标题、段落、表格和方程式。
• 复杂布局（如多栏、多页表格）可能导致阅读顺序混乱。
• 传统 OCR 工具在处理手写内容和方程式时表现不佳。

olmOCR 旨在解决这些问题，提供高效、准确的文本提取方案。

（实测图源：@karminski-牙医）

olmOCR 的核心优势

1、高效精准的 PDF 文本提取

通过在 25 万页多样化 PDF 数据集上微调训练，能够应对复杂布局（如多栏排版）、嵌入表格、数学公式和手写文本等挑战。

结合 “文档锚定” (document anchoring) 技术，提高文本解析质量，在标题、段落、表格、方程式等元素提取方面表现出色。

2、Markdown 格式输出

olmOCR 会生成易于解析的 Markdown 格式文本，能准确处理方程式、表格和手写内容。这种格式便于后续使用，如与语言模型集成或文档编辑。

3、低成本效益

处理 100 万页 PDF 的成本约为 190 美元，相比使用 GPT-4o API 的批处理模式，成本仅为其 1/32。

这使得 olmOCR 成为预算有限的用户的理想选择，特别是在处理学术论文、法律文档等大批量 PDF 时，性价比极高。

4、完全开源

olmOCR 完全开源，并发布了模型权重、训练数据集、代码，可自由部署使用。支持多 GPU 扩展，可以在本地或云端进行高效批量处理。

快速使用

olmOCR 的使用也非常方便，提供两种方式：在线Web 和本地部署。

① 在线Web

可以直接访问官方上线的网页端，可直接体验，上传文档进行解析提取。

体验地址：https://olmocr.allenai.org

② 本地部署

olmOCR 对硬件要求还是有的，需要有英伟达显卡支持。

如果是 Linux 环境需要安装一下依赖：

sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools

然后就是需要创建一个Python虚拟环境，并克隆项目&安装依赖

conda create -n olmocr python=3.11
conda activate olmocr

git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .

如果需要在GPU上运行推理，还要使用flashinfer安装sglang。

pip install sgl-kernel==0.0.3.post1 --force-reinstall --no-deps
pip install "sglang[all]==0.4.2" --find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/

本地使用示例，比如转换单个PDF：

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf

结果将存储为JSON格式至./localworkspace。

将结果与原始 PDF 并排查看命令：

python -m olmocr.viewer.dolmaviewer localworkspace/results/output_*.jsonl

性能评估

Ai2 团队对 olmOCR 进行了详细的对比测试，评估其与 Marker、MinerU、GOT-OCR 2.0 等主流 PDF 解析工具的性能差距。

Elo 评分：1800+（显著优于竞品）

在实际用户评估中，olmOCR 的优选比例：

• 对比 Marker：61.3%
• 对比 GOT-OCR 2.0：58.6%
• 对比 MinerU：71.4%（表现最优）

从以上数据可以看出，olmOCR 在各项任务中均优于现有主流工具，尤其在表格解析、公式识别、多栏布局处理等方面表现突出。

写在最后

olmOCR 作为 Ai2 最新推出的高效 PDF 解析工具，不仅在准确率、解析能力、成本效益等方面全面超越现有工具，还开源了现有模型及代码，完全自主。

特别适合需要处理复杂文档的用户，其高性能、低成本和开源特性使其成为研究者和开发者的首选。无论是学术研究还是商业应用，也都能提供高效、可靠的解决方案。

GitHub 项目地址：https://github.com/allenai/olmocr

● 一款改变你视频下载体验的神器：MediaGo

● 新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star

● 最新最全 VSCODE 插件推荐（2023版）

● Star 50.3k！超棒的国产远程桌面开源应用火了！

● 超牛的AI物理引擎项目，刚开源不到一天，就飙升到超9K Star！突破物理仿真极限！

（文：开源星探）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

开源社区终于迎来PDF解析的”六边形战士”！百万页处理成本直降32倍！

背景问题

olmOCR 的核心优势

快速使用

性能评估

写在最后

发表评论取消回复

背景问题

olmOCR 的核心优势

快速使用

性能评估

写在最后

发表评论 取消回复

发表评论取消回复