OCR
太牛了~~复杂表格Cell合并、跨页拼接,中文领域96%,甩MonkeyOCR 20%
本公众号介绍了一种基于Qwen2.5VL-3B模型微调的复杂表格解析工具OCRFlux。它支持HTML格式表示复杂表格结构、多列布局处理、跨页表格合并以及多语言文档解析。
OCR推理大模型全军覆没?OCR-Reasoning基准揭示多模态大模型推理短板
近期多模态推理模型在数学题、学科题上表现出色,但OCR相关复杂任务的评测标准缺失。填补这一空白的是OCR-Reasoning基准,首次系统性检验了MLLMs在复杂文本图像推理中的能力。
微信推出首个AI助手了
微信推出首个AI助手,整合多种功能如文档识别、图像翻译等,直接嵌入到12亿用户的日常沟通场景中。该助手具备离线运行能力,并支持跨模态处理,实现一站式创作和管理。它不仅提升了工具的效率,还在重塑数字生活体验上起到了关键作用。
Gemma3+Mistral-OCR+RAG:实现多模态文档问答系统
文章介绍了使用Mistral OCR + Gemma 3 和RAG构建的多模态PDF文档问答系统,并详细描述了Mistral OCR和Gemma 3的独特之处及其在处理复杂文档中的应用。
一站式文本提取神器,轻松搞定PDF、图片、文档等多格式文件的文本提取Kreuzberg
Kreuzberg 是一个现代 Python 库,用于从多种文件格式中高效提取文本。它提供高级功能、错误处理和全面支持,通过多种异常类型确保稳健的性能。