欧洲AI明星公司Mistral AI 今日发布 Mistral OCR，一款号称“世界最佳文档理解 API”的全新产品。

Mistral OCR 是一款光学字符识别（OCR）API，但它远不止于简单的文字识别。与其他模型不同，Mistral OCR 能够全面理解文档的每一个元素，包括媒体、文本、表格、公式等，并展现出前所未有的准确性和认知能力。它支持图像和 PDF 作为输入，并能从中提取出有序的、交错的文本和图像内容

这种强大的理解能力使得 Mistral OCR 成为与 RAG（检索增强生成）系统结合使用的理想模型，尤其擅长处理多模态文档，例如幻灯片或复杂的 PDF 文件

亮点

Mistral OCR 具备以下六大亮点功能：

1. 顶尖的复杂文档理解能力： Mistral OCR 擅长理解复杂的文档元素，包括交错的图像、数学表达式、表格以及 LaTeX 等高级排版格式。这使得模型能够更深入地理解富文档，例如包含图表、图形、公式和图像的科学论文。
2. 原生多语言和多模态支持： Mistral OCR 天生具备多语言和多模态处理能力，能够处理多种语言和不同类型的内容。
3. 顶级的基准测试表现： Mistral OCR 在多项基准测试中都取得了领先地位，展现了其卓越的性能
4. 同类产品中最快速度： Mistral OCR 的轻量化设计使其速度远超同类模型，单节点每分钟可处理高达 2000 页的文档。快速的处理能力确保了即使在高吞吐量环境下也能持续学习和改进。
5. “文档即提示”的结构化输出： Mistral OCR 创新性地引入了“文档即提示”的概念，用户可以使用文档作为提示，实现更强大、更精确的指令。它允许用户从文档中提取特定信息，并将其格式化为 JSON 等结构化输出。用户可以将这些结构化输出串联到下游函数调用和构建代理中。
6. 选择性提供自托管部署： 对于有严格数据隐私要求的组织，Mistral OCR 提供自托管选项。这确保了敏感或机密信息在您自身的基础设施内保持安全，符合监管和安全标准。

Mistral OCR 与其他主流 OCR 产品的性能对比，包括 Google Document AI、Azure OCR、Gemini 系列模型以及 GPT-4o。在总体准确率、数学公式识别、多语言处理等方面，Mistral OCR 均表现出色，尤其在 Mistral OCR 2503 版本中，各项指标都达到了新的高度

体验 Mistral OCR

Mistral OCR 的功能可以在https://chat.mistral.ai/chat上免费试用。想要体验 API 的用户，可以访问http://console.mistral.ai/

参考：

https://mistral.ai/news/mistral-ocr

⭐

（文：AI寒武纪）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

沉寂很久的Mistral AI推出号称世界最强OCR

亮点

体验 Mistral OCR

发表评论取消回复

亮点

体验 Mistral OCR

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复