8.4K Star!本地化高精度OCR神器!GPT驱动,零样本即可识别!

点击上方“蓝色字体”关注我,每天推送“实用有趣的项目”!

福利:文末可免费领取公众号自制的新年红包封面 18000 份。

 

随着信息化的推进,越来越多的企业和个人在工作上需要处理大量的文档。

然而,这些文档形式多样,可能包括PDF、扫描文件、图片等,且布局复杂,包含表格、图表等信息。

手动处理这些文档不仅耗时耗力,还容易出错。这时,一款功能强大的OCR工具就显得尤为重要。

今天为大家推荐一款本地化、高精度、复杂布局识别的开源 OCR 工具:Zerox

它同时还集成了 GPT-4o-mini 模型,图像识别更加精准。不仅能本地运行,还支持复杂布局的文档处理,极大提升了文档信息提取的效率和准确性。

项目简介

Zerox 采用了 GPT-4o-mini 模型,通过将PDF等文件转换为图像,再进行OCR识别,最终输出Markdown格式的文档。

不仅支持零样本OCR,用户无需提供大量样本进行训练即可直接使用,还能处理包含复杂布局的文件,包括扫描版的PDF和DOCX等格式。

这种工作流程优化了文档的视觉呈现和信息提取,使得用户能够快速获取和整理文档内容。

核心亮点

  • • 零样本OCR:无需提前训练,Zerox OCR能直接识别和处理各种类型的文档,提供高精度的文本提取。

  • • 多格式支持:支持PDF、DOCX、图片等多种格式,尤其是扫描版文档,灵活应对不同类型的文件。

  • • Markdown输出:将识别结果转换为Markdown格式,方便用户编辑和使用,同时保持文档的视觉和结构完整性。

  • • 复杂布局处理:可以处理包含表格、图表等复杂布局的文件,为用户提供更全面的文档信息提取能力。

  • • API接口:提供API接口,方便开发者集成到自己的应用中,实现自动化文档处理。

基本工作流程

核心:从文件到 Markdown 的高效转化。

  • • 提交文件:用户可以提交PDF、DOCX、图片等格式的文件。

  • • 文件转换:工具将文件转换为一系列图像,准备进行OCR识别。

  • • OCR识别:每个图像通过 GPT-4o-mini 模型进行OCR识别,转换成Markdown格式。

  • • 汇总结果:所有页面的Markdown结果被汇总在一起,形成一个完整的Markdown文档,供用户使用和编辑。

快速使用

使用Zerox OCR非常简单,无论是技术人员还是普通用户都能轻松上手。

对于不想自行部署的用户(想省事、小白用户),可以通过 在线试用 体验Zerox的强大功能。

对于有部署能力的(程序员等互联网从业者),你可以安装Zerox OCR包,轻松安装并在本地运行。

官方提供了 NodePython 包,可供前后端直接调用。

Node 包下载:

npm install zerox

Node 代码调用:

import { zerox } from "zerox";

const result = await zerox({
  filePath: "https://omni-demo-data.s3.amazonaws.com/test/cs101.pdf",
  openaiAPIKey: process.env.OPENAI_API_KEY,
});

Python包下载:

pip install py-zerox

Python 代码调用:

from pyzerox import zerox
import os
import json
import asyncio

async def main():
    file_path = "https://omni-demo-data.s3.amazonaws.com/test/cs101.pdf" ## local filepath and file URL supported

    ## process only some pages or all
    select_pages = None ## None for all, but could be int or list(int) page numbers (1 indexed)

    output_dir = "./output_test" ## directory to save the consolidated markdown file
    result = await zerox(file_path=file_path, model=model, output_dir=output_dir,
                        custom_system_prompt=custom_system_prompt,select_pages=select_pages, **kwargs)
    return result


# run the main function:
result = asyncio.run(main())

# print markdown result
print(result)

代码调用,识别结果展示:

应用场景

  • • 企业文档管理:帮助企业快速处理和整理大量的PDF和扫描文档,提高办公效率。

  • • 学术研究:为研究人员提供高效的文档信息提取工具,方便整理和引用文献资料。

  • • 法律和金融行业:快速处理合同、报告等复杂文档,确保信息的准确提取和整理。

  • • 教育领域:为教育工作者和学生提供方便的文档转换和整理工具,提升学习效率。

写在最后

Zerox 通过结合 GPT-4o-mini 模型和高效的工作流程,为用户提供了一种简单、快捷的文档信息提取工具。

它不仅支持多种格式和复杂布局的文档处理,还能输出简洁的Markdown格式,为用户提供了更灵活的文档编辑和使用方式。

无论你是企业用户、学术研究者,还是内容创作者,Zerox OCR都能为你的工作带来巨大的便利和提升。

如果你正在寻找一个功能强大、操作简便的OCR工具,Zerox无疑是一个值得尝试的选择。

GitHub 项目地址:https://github.com/getomni-ai/zerox

在线体验地址:https://getomni.ai/ocr-demo

年末官方根据年度公众号创作情况,送了 18000 份红包封面额度,所以做了几款红包封面,有需要的小伙伴可以自行领取,也可以分享给朋友领取!

● 一款改变你视频下载体验的神器:MediaGo

● 新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star

● 最新最全 VSCODE 插件推荐(2023版)

● Star 50.3k!超棒的国产远程桌面开源应用火了!

● 超牛的AI物理引擎项目,刚开源不到一天,就飙升到超9K Star!突破物理仿真极限!

(文:开源星探)

欢迎分享

发表评论