Mistral 推出 OCR API，实现卓越的文档理解

AI快讯 2025-03-19

AI 公司 Mistral 推出了 Mistral OCR，这是一款功能强大的光学字符识别（OCR） API，旨在以无与伦比的准确性、速度和多语言功能转变文档处理。

Mistral OCR 旨在从图像和 PDF 中提取和构建内容，以高保真度处理文本、表格、方程式和媒体元素。该公司将其描述为文档理解的新黄金标准，在多个维度的基准中超越了竞争对手的 OCR 模型。

“世界上大约 90% 的组织数据都存储为文档，”Mistral 说。“为了利用这一潜力，我们推出了 Mistral OCR。”

Mistral OCR API 以 mistral-ocr-latest 的形式提供，价格为每美元 1000 页，批量推理提供的处理效率大约是每美元的两倍。该 API 现已在 Mistral 的开发人员套件 la Plateforme 上提供，并计划扩展到云和本地部署。

Mistral OCR 的主要特点

该模型在文本提取、文档布局保留和多语言理解方面优于竞争对手。

以下是 Mistral OCR 将 PDF 中的文本和图像提取到 Markdown 文件中的示例。您可以在此处浏览完整的笔记本。

Mistral OCR 在多个类别中的表现优于领先的 OCR 模型，包括来自 Google、Microsoft Azure 和 OpenAI 的模型：

关键类别的 OCR 模型性能基准。图片来源： Mistral

与许多竞争对手的模型不同，Mistral OCR 可以提取嵌入的图像和文本。但是，由于其他模型缺乏此功能，因此基准测试表反映了“纯文本”测试集的性能，以便进行公平的比较

Mistral OCR 支持数千种语言、字体和脚本，使其成为全球企业和多语言组织的理想选择。它在语言准确性方面优于竞争对手，在法语、西班牙语、德语、中文和俄语方面得分最高。

多语言 OCR 基准测试：跨语言的准确性。图片来源： Mistral

该 API 可以在单个节点上每分钟处理多达 2000 个页面，使其成为同类产品中最快的 OCR 模型。其快速文档处理功能可实现无缝学习和适应，即使在高容量环境中也是如此。

Mistral OCR 支持文档即提示功能，允许用户：

Mistral OCR 为处理机密或高度敏感信息的组织提供了自托管选项。此功能可确保数据隐私和法规合规性，允许用户在自己的基础设施上部署模型。如果您对自托管选项感兴趣，可以联系 Mistral。

关键用例

Mistral OCR 已经在多个行业进行了测试，以改进知识管理、自动化和 AI 驱动的决策。

如何访问 Mistral OCR

Mistral OCR 可在 Le Chat 上免费测试，可通过 la Plateforme 访问 API。该公司正在积极收集反馈，并预计在未来几周内会不断改进。

对于企业用户，可以选择性地进行本地部署。

这意味着什么

Mistral OCR 代表了 AI 驱动的文档处理的重大飞跃，为速度、准确性和多功能性设定了新标准。

凭借多语言支持、结构化输出功能和企业安全选项，API 可以很好地重塑世界各地的企业、研究人员和机构处理大量文档的方式。

随着 AI 不断弥合非结构化数据和可作见解之间的差距，Mistral OCR 可以在解锁全球数字化知识方面发挥关键作用。

Mistral OCR API

HotAI导航站