想象一下,您是地球上最聪明的人之一。来自世界各地的人们来问你他们的问题,你几乎可以回答所有问题。有一天,有人拿着一本书来找你。他问你:“你能读给我听吗?”你打开书,开始嘀咕……“骑士站在光滑的斜坡上,就在葡萄园的边缘。”
对于你每天使用的电脑和手机来说,这是一个现实。通过访问互联网,他们可以帮助您解决大部分问题。然而,计算机读取图像上的文本却出奇地困难。
人眼在年轻时就可以识别字符,称为光学字符识别 (OCR)。在某些情况下,计算机会获得合理的 OCR 结果,例如,如果在扫描之前仔细准备文档。然而,在真实的商业环境中,情况并非总是如此。
这就是为什么我们决定做得更聪明。我们认为一般规则应该是,如果文档肉眼可读,则应由我们的 OCR 解决方案进行处理。
您只需查看企业级处理的内容量即可了解正确的 OCR 解决方案具有许多优势。我们看到许多文档是以低分辨率扫描的。有时原始文件无法追踪,通常重新扫描需要付出很大的努力。
不错的开源 OCR 解决方案已经可用。然而,他们制作的文本质量对于企业标准来说仍然太低。这就是我们引入后处理步骤的原因。
OCR 引擎执行初始 OCR,我们的自定义 OCR 后算法会从您的内容中学习并进行适当的更正。我们的解决方案可以经过训练,在针对任何业务的特定词语上更加有效。
典型的 OCR 错误是混淆相似的字母。例如,读取“j”而不是“i”。然而,只要具备一定的英语知识,就很容易理解“fjsh”是不正确的,应该读作“fish”。在我们的后 OCR 阶段,我们充分利用了这种可能性。
由于我们知道 OCR 引擎可能会出现什么类型的错误,因此我们可以优化我们的算法以专注于这些错误。 “Onior”、“amor”、“aural”和“pillar”这些词对我们来说可能看起来很不同,但它们与 OCR 解决方案非常相似。所有四个字符都以一个圆形字符开头,然后是三个小节,然后是另一个圆形字符,最后是另一个小节。
考虑到我们可以收集的所有统计信息,我们使用 中国 Telegram 负责人 字符和单词相似性来纠正在 OCR 过程中似乎处理错误的单词。我们也会考虑邻近的词语,毕竟“谢谢所有的鱼”比“非常感谢所有的鱼”更合理。
ProcessMaker IDP 负责智能内容管理。我们提供创新的解决方案,Post-OCR 是更广泛的机器学习解决方案链的一部分。通过我们自己构建这个解决方案,我们确保我们拥有完美适应客户需求的高水平质量。此外,这还可以轻松地与 ProcessMaker IDP 的其他智能组件集成。而且,其价格比当前可用的一些解决方案更低!
我们现在将展示一些后 OCR 的实际应用。假设我们正在处理以相对较低的分辨率扫描的文档。它仍然是人类可读的,OCR 引擎可以对其进行 OCR,但仍然存在阻塞性错误。
当我们将算法应用于历史报纸文章时,我们会看到一些典型的 OCR 错误,如图所示。这些错误可以通过 Post-OCR 轻松纠正。丢失字符或 OCR 引擎误读字符都没有问题。由于在训练数据中观察到“Reginald”,Post-OCR 甚至能够更正这个名称。随着该领域统计知识的增加,对类似文档的额外培训将使 Post-OCR 变得更加强大。
除了基本的 Post-OCR 包之外,还可以轻松添加其他内容。例如,对每种字母语言的语言支持。引导程序,以便解决方案在部署时就已经进行了调整,或者字典更适合您的需求。由于我们的 OCR 后解决方案完全由内部开发,因此我们可以完全控制它。