Llama3.2 OCR

项目简介

「基于 Streamlit 和 Llama3.2 视觉模型开发的网页应用,可以通过简单的上传操作从图片中智能提取并结构化展示文本内容」

应用的技术架构分为以下几层:

1. 前端层(

@streamlit

)

– 页面布局和UI组件

– 用户交互处理

– 状态管理(session_state)

2. 业务逻辑层

– 文件上传处理(PIL)

– 图像预处理

– OCR结果格式化

3. AI服务层(

@ollama

)

– Llama 3.2 Vision(11B)模型集成

– 文本提取处理

– 结果返回处理

数据流向:

用户上传图片 → 图片预处理 → Vision模型处理 → 结果格式化 → 页面展示

安装和设置

# setup ollama on linux curl -fsSL https://ollama.com/install.sh | sh# pull llama 3.2 vision modelollama run llama3.2-vision

安装依赖项:确保安装了 Python 3.11 或更高版本。

pip install streamlit ollama

项目链接

https://github.com/patchy631/ai-engineering-hub/tree/main/llama-ocr

扫码加入技术交流群,备注开发语言-城市-昵称

(文:GitHubStore)

欢迎分享

发表评论