项目简介
该 read_books.py
脚本对 PDF 书籍进行智能逐页分析,系统地提取知识点,并在指定间隔生成渐进式摘要。它逐页处理,允许详细理解内容,同时保持书籍的上下文流程。以下是脚本工作原理的详细说明:
功能
-
📚 自动化 PDF 书籍分析和知识提取 -
🤖 人工智能驱动的内容理解和摘要 -
📊 基于间隔的进度摘要 -
💾 持久知识库存储 -
📝 Markdown 格式摘要 -
🎨 彩色编码终端输出以提高可见性 -
🔄 使用现有知识库恢复功能 -
⚙️ 可配置的分析间隔和测试模式 -
🚫 智能内容过滤(跳过目录、索引页面等) -
📂 有序的输出目录结构
如何使用
1 设置
# Clone the repository
git clone [repository-url]
cd [repository-name]
# Install requirements
pip install -r requirements.txt
2 配置
-
将您的 PDF 文件放置在项目根目录下 -
打开 read_books.py
并使用您的 PDF 文件名更新PDF_NAME
常量 -
(可选)调整其他常量,如 ANALYSIS_INTERVAL
或TEST_PAGES
-
3 运行
python read_books.py
-
输出脚本将生成:
book_analysis/knowledge_bases/: 包含提取知识的 JSON 文件
book_analysis/summaries/: Markdown 文件带有间隔和最终摘要
book_analysis/pdfs/: 您的 PDF 文件副本
-
自定义选项 -
将 ANALYSIS_INTERVAL = None
设置为跳过间隔摘要 -
将 TEST_PAGES = None
设置为处理整本书 -
调整 MODEL
和ANALYSIS_MODEL
以适应不同的 AI 模型
配置常量
PDF_NAME: 待分析的 PDF 文件名称。
BASE_DIR: 分析的基础目录。
PDF_DIR: 存储 PDF 文件的目录。
KNOWLEDGE_DIR: 知识库保存的目录。
-
SUMMARIES_DIR : 存储摘要的目录。 -
PDF_PATH : PDF 文件的完整路径。 OUTPUT_PATH:
OUTPUT_PATH
: 知识库 JSON 文件路径。ANALYSIS_INTERVAL: 在生成间隔分析之前页数。设置为
None
以跳过间隔分析。MODEL: 用于处理页面的模型。
ANALYSIS_MODEL: 用于生成分析的模型。
TEST_PAGES: 测试处理的页面数。设置为
None
以处理整本书。
项目链接
https://github.com/echohive42/AI-reads-books-page-by-page/tree/main
扫码加入技术交流群,备注「开发语言-城市-昵称」
(文:GitHubStore)