OCR 归档 - 每时AI

ICCV 2025 清华&腾讯混元X发现「视觉头」机制：仅5%注意力头负责多模态视觉理解

2025年7月14日23时作者机器之心

同第一作者为清华大学自动化系本科生王嘉辉和博士生刘祖炎，本文的通讯作者为清华大学自动化系鲁继文教授。

2025年6月29日8时作者 NLP工程化

MinerU是一款PDF转换工具，支持多种输出格式和功能，包括去除排版元素、识别并转换公式及表格等。

2025年6月26日11时作者 PaperWeekly

近期多模态推理模型在数学题、学科题上表现出色，但OCR相关复杂任务的评测标准缺失。填补这一空白的是OCR-Reasoning基准，首次系统性检验了MLLMs在复杂文本图像推理中的能力。

2025年6月20日23时作者 PaperWeekly

，首次在 OCR 领域实现了视觉文本感知、理解与生成任务在单一模型中的统一，有效缓解了多模态生成中的

2025年6月11日23时作者新智元

个聚焦历史研究能力的AI评测基准——HistBench，并同步开发了深度嵌入历史研究场景的AI助手—

2025年5月27日14时作者小兵的AI视界

的
OCR
技术在处理复杂文档时常常面临准确率低、格式混乱等问题，尤其是在处理敏感信息时，数据隐私和

2025年2月13日12时作者 GitHubStore

Kreuzberg 是一个现代 Python 库，用于从多种文件格式中高效提取文本。它提供高级功能、错误处理和全面支持，通过多种异常类型确保稳健的性能。