ExtractThinker 是一个灵活的文档智能工具

ExtractThinker 是一个灵活的文档智能工具,利用大型语言模型(LLMs)从文档中提取和分类结构化数据,类似于 ORM(对象关系映射),实现无缝的文档处理工作流程。主要功能如下所示:

  • 灵活的文档加载器:支持多种文档加载器,包括 Tesseract OCR、Azure 表单识别器、AWS Textract、Google Document AI 等。
  • 可定制的合约:使用 Pydantic 模型定义自定义提取合约,实现精确的数据提取。
  • 高级分类:使用自定义分类和策略对文档或文档部分进行分类。
  • 异步处理:利用异步处理高效处理大型文档。
  • 多格式支持:无缝处理各种文档格式,如 PDF、图像、电子表格等。
  • 类似 ORM 的交互:以类似 ORM 的方式与文档和 LLMs 交互,便于直观开发。
  • 拆分策略:实施懒拆分或急拆分策略,按页或整体处理文档。
  • 与 LLMs 的集成:轻松集成不同的 LLM 提供商,如 OpenAI、Anthropic、Cohere 等。
  • 社区驱动开发:受到 LangChain 生态系统的启发,专注于智能文档处理。

参考文献:
[1] https://enoch3712.github.io/ExtractThinker/getting-started/
[2] https://github.com/enoch3712/ExtractThinker


(文:NLP工程化)

欢迎分享

发表评论