文档 AI 可对 pdf 文件中的大量数据进行自动研究-解网

问：

我需要为我的应用程序添加一个功能，允许我的客户从图像文本中提取文本，并将它们解析为可用数据（如 json 格式）并存储它们，以便能够执行更好的数据研究。

这些图像文本是大的pdf文件（~150-500页），我的客户希望能够上传大量这些文件，因为现在他们必须通过手动读取所有pdf文件来寻找他们需要的数据。

目前，我正在考虑使用 google API Cloud Document AI，它似乎确实可以轻松完成我需要的操作，尤其是与 Document AI 仓库 API 结合使用。但我到处听说文档 AI 的 OCR 质量可能不可靠。中方对此有何反馈？还是用另一种方式做我想做的事？

json ocr cloud-document-ai pdf-解析

文档 AI 具有专为光学字符识别而设计的处理器和用于从特定文档类型获取命名实体的实体提取处理器。您可以使用此演示尝试一些处理器，并了解 OCR 质量如何适用于您的特定文档。但是 OCR 质量会根据扫描文档的质量和您使用的特定型号版本而有所不同。您可以按照本指南了解文档扫描分辨率，以获取有关输入文档质量的一般指导，文档 OCR 处理器除了输出 OCR 文本外，还会输出图像质量分析信息。（TL;DR - 视情况而定）

上一个：PDFMiner 返回错误的 RGB 颜色，还返回 INT 值 0 或 1

下一个：如何使用 PHPWord 转换或读取 .doc 文件？

文档 AI 可对 pdf 文件中的大量数据进行自动研究

Document AI to perform automatic research in large amount of data from pdf files

评论