Tesseract OCR 力模式-解网

问：

我想像这篇文章一样使用 Tesseract 阅读特定的字符序列：Tesseract OCR：是否可以强制使用特定模式？

我尝试过在 Tesseract 中将集市与模式匹配模式，OCR 仍然可以识别其他不匹配的单词。\d\d\d\A\A

我尝试使用“tessedit_char_whitelist”参数，但我无法使用它选择字符的位置。

我启动命令：我有这条消息：tesseract image.jpg result -l eng bazaar

请在图案开头提供至少 4 个具体字符

无效的用户模式\A\A\d\d\d

带有 Leptonica 的 Tesseract 开源 OCR 引擎 v3.01

图片.jpg ：

结果：

  AB123
  ABC12
  A1234
  12345
  ABCD1

所以这是错误的，我只是想抓住序列“AB123”。

有人可以告诉我为什么我的用户模式文件中的正则表达式无效吗？对于配置，我严格遵循了集市教程。

正则表达式 OCR Tesseract

评论

0赞 Asunez 8/7/2015

我相信这个错误：请在模式的开头提供至少 4 个具体字符几乎可以解释自己。这可能是您使用的任何限制。也尝试一下，并不是你想要的所有“角色”。在这里试试吧。\w\w\d\d\d\A

0赞 leoden 8/7/2015

我试过了，但有同样的错误：请在模式的开头提供至少 4 个具体字符无效的用户模式 \w\w\d\d\d。\w\w\d\d\d

0赞 leoden 8/7/2015

我在我的模式中添加了 4 个具体字符：并用单词等进行了测试......我没有更多的错误请在模式开头提供至少 4 个具体字符，但我仍然有无效的用户模式 TEST\w\w\d\d\d。我不明白为什么它是无效的TEST\w\w\d\d\dTESTAB123 TESTABC12

1赞 Wiktor Stribiżew 8/7/2015

你试过了吗？你在？/path/to/configs/bazaar 是否包含？只是猜测......[A-Z][A-Z][0-9][0-9][0-9]/path/to/eng.user-patternsuser_patterns_suffix user-patterns

2赞 NightFury13 4/19/2018

此功能很可能不再起作用。github.com/tesseract-ocr/tesseract/issues/960

答：

-1赞 hashtagjet 8/11/2019 #1

请尝试将此模式与量词一起使用。

[a-zA-Z]{2}\d{3}

这应该只涵盖 2 个字母字符和 3 位数字。

您之前匹配所有内容的原因是 \w 是字母数字。

上一个：qt creator IDE不支持多行正则表达式搜索

下一个：Tensorboard 支持哪些正则表达式语法进行标记和运行过滤？