Python Tesseract OCR 训练到特定的单词列表

Python Tesseract OCR training to a specific list of words

提问人:Inês Martins 提问时间:6/12/2015 最后编辑:Inês Martins 更新时间:6/16/2015 访问量:4152

问:

我对 OCR 和 Tesseract 很陌生。

到目前为止,我有一个工作脚本,可以从图像中提取相当好的文本。

我的疑问:是否可以训练 tesseract 仅检索某种字典文件中显示的单词/字符??

例如,我有一个带有大量人名列表的 .txt,我想训练 Tesseract “SONIA”不是“50NlA”,“YANNICK”不是“VANNlD”,等等......

如果它有一个包含所有可能名称的列表,它将能够提供更好的准确性?如果原始图像是包含大量人名以及有关该人的其他信息的文本,但我只想从 ocr 中检索姓名并忽略“嘈杂信息”,我该怎么办?对不起,如果这是一个愚蠢的问题。

我已经阅读了本 https://groups.google.com/forum/#!topic/tesseract-ocr/r5qkHxQOT98 和手册 http://tesseract-ocr.googlecode.com/svn/trunk/doc/tesseract.1.html 并创建了 eng.user-words 和 bazaar 文件......下一步应该是什么?因为它给了我相同的输出......

非常感谢您的时间和耐心。

python 字符串 图像处理 ocr tesseract

评论

1赞 sgp 6/12/2015
所以基本上,每当你遇到“50NlA”时,你都想把它存储为“SONIA”(已经训练好了),对吧?
0赞 Inês Martins 6/12/2015
是的,我是这样想的,因为我有一个正确的名字列表...我在这里读过 stackoverflow.com/questions/20599768/ 关于集市的文章,但不是很了解
0赞 Inês Martins 6/12/2015
这是一个类似的问题 stackoverflow.com/questions/25348214/......
1赞 sgp 6/12/2015
你可以做的是,你可以用你的单词训练你的数据,但在检查时,你可以根据单词的Levenshtein距离来比较单词(以衡量两个单词的相似程度)。如果发现相似性,请继续在训练数据中使用该词,否则请更新它。在此处阅读有关Levenshtein距离的更多信息: en.wikipedia.org/wiki/Levenshtein_distance
1赞 Martin Thoma 6/12/2015
@InêsMartins我认为在这种情况下,你不会有任何真正好的可能性。建议的 Levenshtein 距离可能是最好的。

答: 暂无答案