读书AI助手：AI-reads-books-page-by-page

下午12时 2025/03/05 作者 GitHubStore

项目简介

一款不错的读书AI助手：AI-reads-books-page-by-page，它可以逐页分析PDF内容，提取知识点并帮助生成阶段性总结阶段性总结，循序渐进，可以设置的页面间隔，比如每10页生成阶段性总结，支持断点续读输出Markdown格式的总结文件，JSON格式的知识库存储

该 read_books.py 脚本对 PDF 书籍进行智能逐页分析，系统地提取知识点，并在指定间隔生成渐进式摘要。它逐页处理，允许详细理解内容，同时保持书籍的上下文流程。以下是脚本工作原理的详细说明：

功能

📚 自动化 PDF 书籍分析和知识提取
🤖 人工智能驱动的内容理解和摘要
📊 基于间隔的进度摘要
💾 持久知识库存储
📝 Markdown 格式摘要
🎨 彩色编码终端输出以提高可见性
🔄 使用现有知识库恢复功能
⚙️ 可配置的分析间隔和测试模式
🚫 智能内容过滤（跳过目录、索引页面等）
📂 有序的输出目录结构

如何使用

1 设置

# Clone the repositorygit clone [repository-url]cd [repository-name]
# Install requirementspip install -r requirements.txt

2 配置

将您的 PDF 文件放置在项目根目录下
打开 read_books.py 并使用您的 PDF 文件名更新 PDF_NAME 常量
（可选）调整其他常量，如 ANALYSIS_INTERVAL 或 TEST_PAGES

3 运行

python read_books.py

输出脚本将生成：

book_analysis/knowledge_bases/: 包含提取知识的 JSON 文件
book_analysis/summaries/: Markdown 文件带有间隔和最终摘要
book_analysis/pdfs/: 您的 PDF 文件副本

自定义选项

将 ANALYSIS_INTERVAL = None 设置为跳过间隔摘要
将 TEST_PAGES = None 设置为处理整本书
调整 MODEL 和 ANALYSIS_MODEL 以适应不同的 AI 模型

配置常量

PDF_NAME: 待分析的 PDF 文件名称。
BASE_DIR: 分析的基础目录。
PDF_DIR: 存储 PDF 文件的目录。
KNOWLEDGE_DIR: 知识库保存的目录。
SUMMARIES_DIR : 存储摘要的目录。
PDF_PATH : PDF 文件的完整路径。
OUTPUT_PATH: OUTPUT_PATH : 知识库 JSON 文件路径。
ANALYSIS_INTERVAL: 在生成间隔分析之前页数。设置为 None 以跳过间隔分析。
MODEL: 用于处理页面的模型。
ANALYSIS_MODEL: 用于生成分析的模型。
TEST_PAGES: 测试处理的页面数。设置为 None 以处理整本书。

项目链接

https://github.com/echohive42/AI-reads-books-page-by-page/tree/main

扫码加入技术交流群，备注「开发语言-城市-昵称」

（文：GitHubStore）

发表评论取消回复