Python Tesseract OCR 训练到特定的单词列表-解网

问：

我对 OCR 和 Tesseract 很陌生。

到目前为止，我有一个工作脚本，可以从图像中提取相当好的文本。

我的疑问：是否可以训练 tesseract 仅检索某种字典文件中显示的单词/字符？？

例如，我有一个带有大量人名列表的 .txt，我想训练 Tesseract “SONIA”不是“50NlA”，“YANNICK”不是“VANNlD”，等等......

如果它有一个包含所有可能名称的列表，它将能够提供更好的准确性？如果原始图像是包含大量人名以及有关该人的其他信息的文本，但我只想从 ocr 中检索姓名并忽略“嘈杂信息”，我该怎么办？对不起，如果这是一个愚蠢的问题。

我已经阅读了本 https://groups.google.com/forum/#!topic/tesseract-ocr/r5qkHxQOT98 和手册 http://tesseract-ocr.googlecode.com/svn/trunk/doc/tesseract.1.html 并创建了 eng.user-words 和 bazaar 文件......下一步应该是什么？因为它给了我相同的输出......

非常感谢您的时间和耐心。

python 字符串图像处理 ocr tesseract

你可以做的是，你可以用你的单词训练你的数据，但在检查时，你可以根据单词的Levenshtein距离来比较单词（以衡量两个单词的相似程度）。如果发现相似性，请继续在训练数据中使用该词，否则请更新它。在此处阅读有关Levenshtein距离的更多信息： en.wikipedia.org/wiki/Levenshtein_distance

1赞 Martin Thoma 6/12/2015

@InêsMartins我认为在这种情况下，你不会有任何真正好的可能性。建议的 Levenshtein 距离可能是最好的。

答： 暂无答案

上一个：可以替换的最小子字符串，使字符串的每个字符数相同

下一个：Android 剪贴板中是否有任何字符/字节限制？[Android开发]

Python Tesseract OCR 训练到特定的单词列表

Python Tesseract OCR training to a specific list of words

评论