4.2K+ Star!olmOCR:一款开源的高性能OCR工具
olmOCR 是由 Allen Institute for Artificial Intelligence 开发的工具包,旨在将 PDF 文档线性化以用于语言模型的数据集构建和训练。它提供了自然文本解析、多版本比较等功能,并支持大规模 PDF 处理和模型微调。
olmOCR 是由 Allen Institute for Artificial Intelligence 开发的工具包,旨在将 PDF 文档线性化以用于语言模型的数据集构建和训练。它提供了自然文本解析、多版本比较等功能,并支持大规模 PDF 处理和模型微调。