Tesseract OCR 力模式

Tesseract OCR force pattern

提问人:leoden 提问时间:8/7/2015 最后编辑:CinCoutleoden 更新时间:12/18/2021 访问量:8836

问:

我想像这篇文章一样使用 Tesseract 阅读特定的字符序列:Tesseract OCR:是否可以强制使用特定模式?

我尝试过在 Tesseract 中将集市与模式匹配模式,OCR 仍然可以识别其他不匹配的单词。\d\d\d\A\A

我尝试使用“tessedit_char_whitelist”参数,但我无法使用它选择字符的位置。

  • 我启动命令: 我有这条消息:tesseract image.jpg result -l eng bazaar

请在图案开头提供至少 4 个具体字符

无效的用户模式\A\A\d\d\d

带有 Leptonica 的 Tesseract 开源 OCR 引擎 v3.01

  • 图片.jpg :

enter image description here

  • 结果:

      AB123
      ABC12
      A1234
      12345
      ABCD1
    

所以这是错误的,我只是想抓住序列“AB123”。

有人可以告诉我为什么我的用户模式文件中的正则表达式无效吗?对于配置,我严格遵循了集市教程。

正则表达式 OCR Tesseract

评论

0赞 Asunez 8/7/2015
我相信这个错误:请在模式的开头提供至少 4 个具体字符几乎可以解释自己。这可能是您使用的任何限制。也尝试一下,并不是你想要的所有“角色”。在这里试试吧。\w\w\d\d\d\A
0赞 leoden 8/7/2015
我试过了,但有同样的错误:请在模式的开头提供至少 4 个具体字符 无效的用户模式 \w\w\d\d\d。\w\w\d\d\d
0赞 leoden 8/7/2015
我在我的模式中添加了 4 个具体字符:并用单词等进行了测试......我没有更多的错误请在模式开头提供至少 4 个具体字符,但我仍然有无效的用户模式 TEST\w\w\d\d\d。我不明白为什么它是无效的TEST\w\w\d\d\dTESTAB123 TESTABC12
1赞 Wiktor Stribiżew 8/7/2015
你试过了吗?你在 ?/path/to/configs/bazaar 是否包含?只是猜测......[A-Z][A-Z][0-9][0-9][0-9]/path/to/eng.user-patternsuser_patterns_suffix user-patterns
2赞 NightFury13 4/19/2018
此功能很可能不再起作用。github.com/tesseract-ocr/tesseract/issues/960

答:

-1赞 hashtagjet 8/11/2019 #1

请尝试将此模式与量词一起使用。

[a-zA-Z]{2}\d{3}

这应该只涵盖 2 个字母字符和 3 位数字。

您之前匹配所有内容的原因是 \w 是字母数字。