提问人:Inês Martins 提问时间:6/12/2015 最后编辑:Inês Martins 更新时间:6/16/2015 访问量:4152
Python Tesseract OCR 训练到特定的单词列表
Python Tesseract OCR training to a specific list of words
问:
我对 OCR 和 Tesseract 很陌生。
到目前为止,我有一个工作脚本,可以从图像中提取相当好的文本。
我的疑问:是否可以训练 tesseract 仅检索某种字典文件中显示的单词/字符??
例如,我有一个带有大量人名列表的 .txt,我想训练 Tesseract “SONIA”不是“50NlA”,“YANNICK”不是“VANNlD”,等等......
如果它有一个包含所有可能名称的列表,它将能够提供更好的准确性?如果原始图像是包含大量人名以及有关该人的其他信息的文本,但我只想从 ocr 中检索姓名并忽略“嘈杂信息”,我该怎么办?对不起,如果这是一个愚蠢的问题。
我已经阅读了本 https://groups.google.com/forum/#!topic/tesseract-ocr/r5qkHxQOT98 和手册 http://tesseract-ocr.googlecode.com/svn/trunk/doc/tesseract.1.html 并创建了 eng.user-words 和 bazaar 文件......下一步应该是什么?因为它给了我相同的输出......
非常感谢您的时间和耐心。
答: 暂无答案
评论