Mistral 推出 OCR API,实现卓越的文档理解

AI快讯 2025-03-19

image.png


AI 公司 Mistral 推出了 Mistral OCR,这是一款功能强大的光学字符识别 (OCR) API,旨在以无与伦比的准确性、速度和多语言功能转变文档处理。

Mistral OCR 旨在从图像和 PDF 中提取和构建内容,以高保真度处理文本、表格、方程式和媒体元素。该公司将其描述为文档理解的新黄金标准,在多个维度的基准中超越了竞争对手的 OCR 模型。

“世界上大约 90% 的组织数据都存储为文档,”Mistral 说。“为了利用这一潜力,我们推出了 Mistral OCR。”

Mistral OCR API 以 mistral-ocr-latest 的形式提供,价格为每美元 1000 页,批量推理提供的处理效率大约是每美元的两倍。该 API 现已在 Mistral 的开发人员套件 la Plateforme 上提供,并计划扩展到云和本地部署。

Mistral OCR 的主要特点

  1. 行业领先的准确性和多模态理解

  • Mistral OCR 经过优化,可处理复杂文档,包括:

  • 带有图表、图形和方程式的科学论文。

  • 包含结构化数据的法律和财务文件。

  • 具有交错文本和图像的多媒体丰富文件。

该模型在文本提取、文档布局保留和多语言理解方面优于竞争对手。

以下是 Mistral OCR 将 PDF 中的文本和图像提取到 Markdown 文件中的示例。您可以在此处浏览完整的笔记本。

  1. 基准测试性能

Mistral OCR 在多个类别中的表现优于领先的 OCR 模型,包括来自 Google、Microsoft Azure 和 OpenAI 的模型:

image.png

关键类别的 OCR 模型性能基准。图片来源: Mistral

与许多竞争对手的模型不同,Mistral OCR 可以提取嵌入的图像和文本。但是,由于其他模型缺乏此功能,因此基准测试表反映了“纯文本”测试集的性能,以便进行公平的比较

  1. 多语言处理

Mistral OCR 支持数千种语言、字体和脚本,使其成为全球企业和多语言组织的理想选择。它在语言准确性方面优于竞争对手,在法语、西班牙语、德语、中文和俄语方面得分最高。


image.png


多语言 OCR 基准测试:跨语言的准确性。图片来源: Mistral

  1. 速度和可扩展性

该 API 可以在单个节点上每分钟处理多达 2000 个页面,使其成为同类产品中最快的 OCR 模型。其快速文档处理功能可实现无缝学习和适应,即使在高容量环境中也是如此。

  1. 结构化输出和 AI 集成

Mistral OCR 支持文档即提示功能,允许用户:

  • 从文档中提取特定内容。

  • 将数据格式化为 JSON 等结构化输出。

  • 将输出链接到高级应用程序的自动化 AI 工作流中。

  • 自托管和敏感数据的安全性

Mistral OCR 为处理机密或高度敏感信息的组织提供了自托管选项。此功能可确保数据隐私和法规合规性,允许用户在自己的基础设施上部署模型。如果您对自托管选项感兴趣,可以联系 Mistral。

关键用例

Mistral OCR 已经在多个行业进行了测试,以改进知识管理、自动化和 AI 驱动的决策。

  • 科研:将研究论文转换为数字化的结构化格式,用于 AI 驱动的分析,从而加快协作和科学工作流程。

  • 文化保护:将历史文档和档案数字化,以实现更广泛的可访问性。

  • 客户支持: 将手册和文档转换为可搜索的知识库,从而减少响应时间和客户满意度。

  • 法律和法规合规性:从法律和教育行业的合同、法规和文件中提取和构建数据。

  • AI 就绪数据处理:将工程图、演示文稿和技术论文转换为索引格式。

如何访问 Mistral OCR

Mistral OCR 可在 Le Chat 上免费测试,可通过 la Plateforme 访问 API。该公司正在积极收集反馈,并预计在未来几周内会不断改进。

对于企业用户,可以选择性地进行本地部署。

这意味着什么

Mistral OCR 代表了 AI 驱动的文档处理的重大飞跃,为速度、准确性和多功能性设定了新标准。

凭借多语言支持、结构化输出功能和企业安全选项,API 可以很好地重塑世界各地的企业、研究人员和机构处理大量文档的方式。

随着 AI 不断弥合非结构化数据和可作见解之间的差距,Mistral OCR 可以在解锁全球数字化知识方面发挥关键作用。

©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章