项目简介
「基于 Streamlit 和 Llama3.2 视觉模型开发的网页应用,可以通过简单的上传操作从图片中智能提取并结构化展示文本内容」
应用的技术架构分为以下几层:
1. 前端层(
@streamlit
)
– 页面布局和UI组件
– 用户交互处理
– 状态管理(session_state)
2. 业务逻辑层
– 文件上传处理(PIL)
– 图像预处理
– OCR结果格式化
3. AI服务层(
@ollama
)
– Llama 3.2 Vision(11B)模型集成
– 文本提取处理
– 结果返回处理
数据流向:
用户上传图片 → 图片预处理 → Vision模型处理 → 结果格式化 → 页面展示
安装和设置
# setup ollama on linux
curl -fsSL https://ollama.com/install.sh | sh
# pull llama 3.2 vision model
ollama run llama3.2-vision
安装依赖项:确保安装了 Python 3.11 或更高版本。
pip install streamlit ollama
项目链接
https://github.com/patchy631/ai-engineering-hub/tree/main/llama-ocr
扫码加入技术交流群,备注「开发语言-城市-昵称」
(文:GitHubStore)