Tesseract 和 OCR 无法识别类似数字的字体-解网

问：

我需要从数字秤屏幕上读取数字，这些数字显示如下，例如：

所以我使用网络摄像头、Javascript 和 Tesseract.js 来使用 OCR。但最好的结果是：

Jo | |
I 10)

当预期结果是时，显然。123456

下面是一些生成的 JSON：

block: {
    paragraphs: Array(1),
    text: "Jo | |↵I 10)↵",
    confidence: 47.748504638671875,
    baseline: {
        …},
    bbox: {
        …},
    …
}

处理图像的代码如下：

function recognizeFile(file){
    const corePath = window.navigator.userAgent.indexOf("Edge") > -1
        ? 'js/tesseract-core.asm.js'
        : 'js/tesseract-core.wasm.js';


    const worker = new Tesseract.TesseractWorker({
        corePath,
    });

    worker.recognize(file,
        $("#langsel").val()
    )
        .progress(function(packet){
            console.info(packet)
        })
        .then(function(data){
            console.log(data)
        })
}

还有其他选择来实现这一点吗？对于这些情况，有没有更合适的库？

提前致谢。

JavaScript OCR 镶嵌

Tesseract 和 OCR 无法识别类似数字的字体

Tesseract and OCR can't recognize digital-like fonts

评论