将PDF文档转换为Markdown的智能工具Vision Parse

项目简介

使用最先进的视觉语言模型将 PDF 文档解析为格式精美的 Markdown 内容 – 只需几行代码!


Vision Parse 利用视觉语言模型的力量彻底改变文档处理:

  • 📝扫描文档处理:智能识别扫描文档中的文本、表格和 LaTeX 方程,并将其高精度提取为 Markdown 格式的内容

  • 🎨高级内容格式:保留 Markdown 格式内容的 LaTeX 方程、超链接、图像和文档层次结构

  • 🤖多LLM支持:与OpenAI、Gemini和Llama等多个Vision LLM提供商无缝集成,以实现最佳的准确性和速度

  • 📁本地模型托管:支持 Ollama 本地模型托管,以实现安全、免费、私密和离线文档处理


🚀 开始使用

先决条件

  • 🐍 Python >= 3.9  

  • 🖥️Ollama(如果你想使用本地模特)

  • 🤖 OpenAI 或 Google Gemini 的 API 密钥(如果您想使用 OpenAI 或 Google Gemini)

安装

使用 pip 安装核心包(推荐):

pip install vision-parse

安装 OpenAI 或 Gemini 的附加依赖项:

# For OpenAI supportpip install 'vision-parse[openai]'
# For Gemini supportpip install 'vision-parse[gemini]'
# To install all the additional dependenciespip install 'vision-parse[all]'

从源安装包:

pip install 'git+https://github.com/iamarunbrahma/vision-parse.git#egg=vision-parse[all]'

设置 Ollama(可选)

有关如何在本地设置 Ollama 的信息,请参阅Examples/ollama_setup.md 。


⌛️用法

基本用法示例

from vision_parse import VisionParser
# Initialize parserparser = VisionParser( model_name="llama3.2-vision:11b", # For local models, you don't need to provide the api key temperature=0.4, top_p=0.5, image_mode="url", # Image mode can be "url", "base64" or None detailed_extraction=False, # Set to True for more detailed extraction enable_concurrency=False, # Set to True for parallel processing)
# Convert PDF to markdownpdf_path = "path/to/your/document.pdf" # local path to your pdf filemarkdown_pages = parser.convert_pdf(pdf_path)
# Process resultsfor i, page_content in enumerate(markdown_pages): print(f"\n--- Page {i+1} ---\n{page_content}")

OpenAI 或 Gemini 模型使用

from vision_parse import VisionParser
# Initialize parser with OpenAI modelparser = VisionParser( model_name="gpt-4o", api_key="your-openai-api-key", # Get the OpenAI API key from https://platform.openai.com/api-keys temperature=0.7, top_p=0.4, image_mode="url", detailed_extraction=True, # Set to True for more detailed extraction enable_concurrency=True,)
# Initialize parser with Google Gemini modelparser = VisionParser( model_name="gemini-1.5-flash", api_key="your-gemini-api-key", # Get the Gemini API key from https://aistudio.google.com/app/apikey temperature=0.7, top_p=0.4, image_mode="url", detailed_extraction=True, # Set to True for more detailed extraction enable_concurrency=True,)

✅ 支持的模型

该软件包支持以下 Vision LLM模型:

  • OpenAI: gpt-4o 、 gpt-4o-mini

  • Google Gemini: gemini-1.5-flashgemini-2.0-flash-expgemini-1.5-pro

  • 来自 Ollama 的 Meta Llama 和 LLava: llava:13b 、 llava:34b 、 llama3.2-vision:11b 、 llama3.2-vision:70b

项目链接

https://github.com/iamarunbrahma/vision-parse

扫码加入技术交流群,备注开发语言-城市-昵称

(文:GitHubStore)

欢迎分享

发表评论