Mistral 推出 OCR API,实现卓越的文档理解
AI 公司 Mistral 推出了 Mistral OCR,这是一款功能强大的光学字符识别 (OCR) API,旨在以无与伦比的准确性、速度和多语言功能转变文档处理。
Mistral OCR 旨在从图像和 PDF 中提取和构建内容,以高保真度处理文本、表格、方程式和媒体元素。该公司将其描述为文档理解的新黄金标准,在多个维度的基准中超越了竞争对手的 OCR 模型。
“世界上大约 90% 的组织数据都存储为文档,”Mistral 说。“为了利用这一潜力,我们推出了 Mistral OCR。”
Mistral OCR API 以 mistral-ocr-latest 的形式提供,价格为每美元 1000 页,批量推理提供的处理效率大约是每美元的两倍。该 API 现已在 Mistral 的开发人员套件 la Plateforme 上提供,并计划扩展到云和本地部署。
Mistral OCR 的主要特点
行业领先的准确性和多模态理解
Mistral OCR 经过优化,可处理复杂文档,包括:
带有图表、图形和方程式的科学论文。
包含结构化数据的法律和财务文件。
具有交错文本和图像的多媒体丰富文件。
该模型在文本提取、文档布局保留和多语言理解方面优于竞争对手。
以下是 Mistral OCR 将 PDF 中的文本和图像提取到 Markdown 文件中的示例。您可以在此处浏览完整的笔记本。
基准测试性能
Mistral OCR 在多个类别中的表现优于领先的 OCR 模型,包括来自 Google、Microsoft Azure 和 OpenAI 的模型:
关键类别的 OCR 模型性能基准。图片来源: Mistral
与许多竞争对手的模型不同,Mistral OCR 可以提取嵌入的图像和文本。但是,由于其他模型缺乏此功能,因此基准测试表反映了“纯文本”测试集的性能,以便进行公平的比较
多语言处理
Mistral OCR 支持数千种语言、字体和脚本,使其成为全球企业和多语言组织的理想选择。它在语言准确性方面优于竞争对手,在法语、西班牙语、德语、中文和俄语方面得分最高。
多语言 OCR 基准测试:跨语言的准确性。图片来源: Mistral
速度和可扩展性
该 API 可以在单个节点上每分钟处理多达 2000 个页面,使其成为同类产品中最快的 OCR 模型。其快速文档处理功能可实现无缝学习和适应,即使在高容量环境中也是如此。
结构化输出和 AI 集成
Mistral OCR 支持文档即提示功能,允许用户:
从文档中提取特定内容。
将数据格式化为 JSON 等结构化输出。
将输出链接到高级应用程序的自动化 AI 工作流中。
自托管和敏感数据的安全性
Mistral OCR 为处理机密或高度敏感信息的组织提供了自托管选项。此功能可确保数据隐私和法规合规性,允许用户在自己的基础设施上部署模型。如果您对自托管选项感兴趣,可以联系 Mistral。
关键用例
Mistral OCR 已经在多个行业进行了测试,以改进知识管理、自动化和 AI 驱动的决策。
科研:将研究论文转换为数字化的结构化格式,用于 AI 驱动的分析,从而加快协作和科学工作流程。
文化保护:将历史文档和档案数字化,以实现更广泛的可访问性。
客户支持: 将手册和文档转换为可搜索的知识库,从而减少响应时间和客户满意度。
法律和法规合规性:从法律和教育行业的合同、法规和文件中提取和构建数据。
AI 就绪数据处理:将工程图、演示文稿和技术论文转换为索引格式。
如何访问 Mistral OCR
Mistral OCR 可在 Le Chat 上免费测试,可通过 la Plateforme 访问 API。该公司正在积极收集反馈,并预计在未来几周内会不断改进。
对于企业用户,可以选择性地进行本地部署。
这意味着什么
Mistral OCR 代表了 AI 驱动的文档处理的重大飞跃,为速度、准确性和多功能性设定了新标准。
凭借多语言支持、结构化输出功能和企业安全选项,API 可以很好地重塑世界各地的企业、研究人员和机构处理大量文档的方式。
随着 AI 不断弥合非结构化数据和可作见解之间的差距,Mistral OCR 可以在解锁全球数字化知识方面发挥关键作用。