点击上方“蓝色字体”关注我,每天推送“实用有趣的项目”!
随着信息化的推进,越来越多的企业和个人在工作上需要处理大量的文档。
然而,这些文档形式多样,可能包括PDF、扫描文件、图片等,且布局复杂,包含表格、图表等信息。
手动处理这些文档不仅耗时耗力,还容易出错。这时,一款功能强大的OCR工具就显得尤为重要。
今天为大家推荐一款本地化、高精度、复杂布局识别的开源 OCR 工具:Zerox。
它同时还集成了 GPT-4o-mini 模型,图像识别更加精准。不仅能本地运行,还支持复杂布局的文档处理,极大提升了文档信息提取的效率和准确性。
项目简介
Zerox 采用了 GPT-4o-mini 模型,通过将PDF等文件转换为图像,再进行OCR识别,最终输出Markdown格式的文档。
不仅支持零样本OCR,用户无需提供大量样本进行训练即可直接使用,还能处理包含复杂布局的文件,包括扫描版的PDF和DOCX等格式。
这种工作流程优化了文档的视觉呈现和信息提取,使得用户能够快速获取和整理文档内容。
核心亮点
-
• 零样本OCR:无需提前训练,Zerox OCR能直接识别和处理各种类型的文档,提供高精度的文本提取。
-
• 多格式支持:支持PDF、DOCX、图片等多种格式,尤其是扫描版文档,灵活应对不同类型的文件。
-
• Markdown输出:将识别结果转换为Markdown格式,方便用户编辑和使用,同时保持文档的视觉和结构完整性。
-
• 复杂布局处理:可以处理包含表格、图表等复杂布局的文件,为用户提供更全面的文档信息提取能力。
-
• API接口:提供API接口,方便开发者集成到自己的应用中,实现自动化文档处理。
基本工作流程
核心:从文件到 Markdown 的高效转化。
-
• 提交文件:用户可以提交PDF、DOCX、图片等格式的文件。
-
• 文件转换:工具将文件转换为一系列图像,准备进行OCR识别。
-
• OCR识别:每个图像通过 GPT-4o-mini 模型进行OCR识别,转换成Markdown格式。
-
• 汇总结果:所有页面的Markdown结果被汇总在一起,形成一个完整的Markdown文档,供用户使用和编辑。
快速使用
使用Zerox OCR非常简单,无论是技术人员还是普通用户都能轻松上手。
对于不想自行部署的用户(想省事、小白用户),可以通过 在线试用 体验Zerox的强大功能。
对于有部署能力的(程序员等互联网从业者),你可以安装Zerox OCR包,轻松安装并在本地运行。
官方提供了 Node 和 Python 包,可供前后端直接调用。
Node 包下载:
npm install zerox
Node 代码调用:
import { zerox } from "zerox";
const result = await zerox({
filePath: "https://omni-demo-data.s3.amazonaws.com/test/cs101.pdf",
openaiAPIKey: process.env.OPENAI_API_KEY,
});
Python包下载:
pip install py-zerox
Python 代码调用:
from pyzerox import zerox
import os
import json
import asyncio
async def main():
file_path = "https://omni-demo-data.s3.amazonaws.com/test/cs101.pdf" ## local filepath and file URL supported
## process only some pages or all
select_pages = None ## None for all, but could be int or list(int) page numbers (1 indexed)
output_dir = "./output_test" ## directory to save the consolidated markdown file
result = await zerox(file_path=file_path, model=model, output_dir=output_dir,
custom_system_prompt=custom_system_prompt,select_pages=select_pages, **kwargs)
return result
# run the main function:
result = asyncio.run(main())
# print markdown result
print(result)
代码调用,识别结果展示:
应用场景
-
• 企业文档管理:帮助企业快速处理和整理大量的PDF和扫描文档,提高办公效率。
-
• 学术研究:为研究人员提供高效的文档信息提取工具,方便整理和引用文献资料。
-
• 法律和金融行业:快速处理合同、报告等复杂文档,确保信息的准确提取和整理。
-
• 教育领域:为教育工作者和学生提供方便的文档转换和整理工具,提升学习效率。
写在最后
Zerox 通过结合 GPT-4o-mini 模型和高效的工作流程,为用户提供了一种简单、快捷的文档信息提取工具。
它不仅支持多种格式和复杂布局的文档处理,还能输出简洁的Markdown格式,为用户提供了更灵活的文档编辑和使用方式。
无论你是企业用户、学术研究者,还是内容创作者,Zerox OCR都能为你的工作带来巨大的便利和提升。
如果你正在寻找一个功能强大、操作简便的OCR工具,Zerox无疑是一个值得尝试的选择。
GitHub 项目地址:https://github.com/getomni-ai/zerox
在线体验地址:https://getomni.ai/ocr-demo
年末官方根据年度公众号创作情况,送了 18000 份红包封面额度,所以做了几款红包封面,有需要的小伙伴可以自行领取,也可以分享给朋友领取!
● 一款改变你视频下载体验的神器:MediaGo
● 新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star
● 最新最全 VSCODE 插件推荐(2023版)
● Star 50.3k!超棒的国产远程桌面开源应用火了!
● 超牛的AI物理引擎项目,刚开源不到一天,就飙升到超9K Star!突破物理仿真极限!
(文:开源星探)