读书AI助手:AI-reads-books-page-by-page

项目简介

一款不错的读书AI助手:AI-reads-books-page-by-page,它可以逐页分析PDF内容,提取知识点并帮助生成阶段性总结阶段性总结,循序渐进,可以设置的页面间隔,比如每10页生成阶段性总结,支持断点续读 输出Markdown格式的总结文件,JSON格式的知识库存储

该 read_books.py 脚本对 PDF 书籍进行智能逐页分析,系统地提取知识点,并在指定间隔生成渐进式摘要。它逐页处理,允许详细理解内容,同时保持书籍的上下文流程。以下是脚本工作原理的详细说明:



功能

  • 📚 自动化 PDF 书籍分析和知识提取
  • 🤖 人工智能驱动的内容理解和摘要
  • 📊 基于间隔的进度摘要
  • 💾 持久知识库存储
  • 📝 Markdown 格式摘要
  • 🎨 彩色编码终端输出以提高可见性
  • 🔄 使用现有知识库恢复功能
  • ⚙️ 可配置的分析间隔和测试模式
  • 🚫 智能内容过滤(跳过目录、索引页面等)
  • 📂 有序的输出目录结构


如何使用

设置

# Clone the repositorygit clone [repository-url]cd [repository-name]
# Install requirementspip install -r requirements.txt

2  配置

    • 将您的 PDF 文件放置在项目根目录下
    • 打开 read_books.py 并使用您的 PDF 文件名更新 PDF_NAME 常量
    • (可选)调整其他常量,如 ANALYSIS_INTERVAL 或 TEST_PAGES

  1. 3  运行

python read_books.py
  1. 输出脚本将生成:

    • book_analysis/knowledge_bases/: 包含提取知识的 JSON 文件
    • book_analysis/summaries/: Markdown 文件带有间隔和最终摘要
    • book_analysis/pdfs/: 您的 PDF 文件副本

  2. 自定义选项

    • 将 ANALYSIS_INTERVAL = None 设置为跳过间隔摘要
    • 将 TEST_PAGES = None 设置为处理整本书
    • 调整 MODEL 和 ANALYSIS_MODEL 以适应不同的 AI 模型



配置常量

  • PDF_NAME: 待分析的 PDF 文件名称。
  • BASE_DIR: 分析的基础目录。
  • PDF_DIR: 存储 PDF 文件的目录。
  • KNOWLEDGE_DIR: 知识库保存的目录。
  • SUMMARIES_DIR : 存储摘要的目录。
  • PDF_PATH : PDF 文件的完整路径。
  • OUTPUT_PATH: OUTPUT_PATH : 知识库 JSON 文件路径。
  • ANALYSIS_INTERVAL: 在生成间隔分析之前页数。设置为 None 以跳过间隔分析。
  • MODEL: 用于处理页面的模型。
  • ANALYSIS_MODEL: 用于生成分析的模型。
  • TEST_PAGES: 测试处理的页面数。设置为 None 以处理整本书。



项目链接

https://github.com/echohive42/AI-reads-books-page-by-page/tree/main

扫码加入技术交流群,备注开发语言-城市-昵称

(文:GitHubStore)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往