项目简介
使用最先进的视觉语言模型将 PDF 文档解析为格式精美的 Markdown 内容 – 只需几行代码!
Vision Parse 利用视觉语言模型的力量彻底改变文档处理:
-
📝扫描文档处理:智能识别扫描文档中的文本、表格和 LaTeX 方程,并将其高精度提取为 Markdown 格式的内容
-
🎨高级内容格式:保留 Markdown 格式内容的 LaTeX 方程、超链接、图像和文档层次结构
-
🤖多LLM支持:与OpenAI、Gemini和Llama等多个Vision LLM提供商无缝集成,以实现最佳的准确性和速度
-
📁本地模型托管:支持 Ollama 本地模型托管,以实现安全、免费、私密和离线文档处理
🚀 开始使用
先决条件
-
🐍 Python >= 3.9
-
🖥️Ollama(如果你想使用本地模特)
-
🤖 OpenAI 或 Google Gemini 的 API 密钥(如果您想使用 OpenAI 或 Google Gemini)
安装
使用 pip 安装核心包(推荐):
pip install vision-parse
安装 OpenAI 或 Gemini 的附加依赖项:
# For OpenAI support
pip install 'vision-parse[openai]'
# For Gemini support
pip install 'vision-parse[gemini]'
# To install all the additional dependencies
pip install 'vision-parse[all]'
从源安装包:
pip install 'git+https://github.com/iamarunbrahma/vision-parse.git#egg=vision-parse[all]'
设置 Ollama(可选)
有关如何在本地设置 Ollama 的信息,请参阅Examples/ollama_setup.md 。
⌛️用法
基本用法示例
from vision_parse import VisionParser
# Initialize parser
parser = VisionParser(
model_name="llama3.2-vision:11b", # For local models, you don't need to provide the api key
temperature=0.4,
top_p=0.5,
image_mode="url", # Image mode can be "url", "base64" or None
detailed_extraction=False, # Set to True for more detailed extraction
enable_concurrency=False, # Set to True for parallel processing
)
# Convert PDF to markdown
pdf_path = "path/to/your/document.pdf" # local path to your pdf file
markdown_pages = parser.convert_pdf(pdf_path)
# Process results
for i, page_content in enumerate(markdown_pages):
print(f"\n--- Page {i+1} ---\n{page_content}")
OpenAI 或 Gemini 模型使用
from vision_parse import VisionParser
# Initialize parser with OpenAI model
parser = VisionParser(
model_name="gpt-4o",
api_key="your-openai-api-key", # Get the OpenAI API key from https://platform.openai.com/api-keys
temperature=0.7,
top_p=0.4,
image_mode="url",
detailed_extraction=True, # Set to True for more detailed extraction
enable_concurrency=True,
)
# Initialize parser with Google Gemini model
parser = VisionParser(
model_name="gemini-1.5-flash",
api_key="your-gemini-api-key", # Get the Gemini API key from https://aistudio.google.com/app/apikey
temperature=0.7,
top_p=0.4,
image_mode="url",
detailed_extraction=True, # Set to True for more detailed extraction
enable_concurrency=True,
)
✅ 支持的模型
该软件包支持以下 Vision LLM模型:
-
OpenAI:
gpt-4o
、gpt-4o-mini
-
Google Gemini:
gemini-1.5-flash
,gemini-2.0-flash-exp
,gemini-1.5-pro
-
来自 Ollama 的 Meta Llama 和 LLava:
llava:13b
、llava:34b
、llama3.2-vision:11b
、llama3.2-vision:70b
项目链接
https://github.com/iamarunbrahma/vision-parse
扫码加入技术交流群,备注「开发语言-城市-昵称」
(文:GitHubStore)