提问人:leoden 提问时间:8/7/2015 最后编辑:CinCoutleoden 更新时间:12/18/2021 访问量:8836
Tesseract OCR 力模式
Tesseract OCR force pattern
问:
我想像这篇文章一样使用 Tesseract 阅读特定的字符序列:Tesseract OCR:是否可以强制使用特定模式?
我尝试过在 Tesseract 中将集市与模式匹配模式,OCR 仍然可以识别其他不匹配的单词。\d\d\d\A\A
我尝试使用“tessedit_char_whitelist”参数,但我无法使用它选择字符的位置。
- 我启动命令: 我有这条消息:
tesseract image.jpg result -l eng bazaar
请在图案开头提供至少 4 个具体字符
无效的用户模式
\A\A\d\d\d
带有 Leptonica 的 Tesseract 开源 OCR 引擎 v3.01
- 图片.jpg :
结果:
AB123 ABC12 A1234 12345 ABCD1
所以这是错误的,我只是想抓住序列“AB123”。
有人可以告诉我为什么我的用户模式文件中的正则表达式无效吗?对于配置,我严格遵循了集市教程。
答:
-1赞
hashtagjet
8/11/2019
#1
请尝试将此模式与量词一起使用。
[a-zA-Z]{2}\d{3}
这应该只涵盖 2 个字母字符和 3 位数字。
您之前匹配所有内容的原因是 \w 是字母数字。
评论
\w\w\d\d\d
\A
\w\w\d\d\d
TEST\w\w\d\d\d
TESTAB123 TESTABC12
[A-Z][A-Z][0-9][0-9][0-9]
/path/to/eng.user-patterns
user_patterns_suffix user-patterns