PDFMiner 返回错误的 RGB 颜色,还返回 INT 值 0 或 1

PDFMiner returns wrong RGB color and also returns INT value 0 or 1

提问人:Shiva Nandan 提问时间:9/24/2023 更新时间:9/24/2023 访问量:29

问:

LTTextHorizontal。

当我以这种方式迭代 LTChar 时。 char.graphicstate.ncolor,当它为白色时,它返回错误的RGB值,它返回(1,1,1),对于其他pdf,它返回0或1。

如何解决这个问题?

for page_layout in extract_pages(scr_file):
        for element in page_layout:
            if isinstance(element, LTTextContainer):
                fontinfo = set()
                for text_line in element:
                    for character in text_line:
                        if isinstance(character, LTChar):
                            fontinfo.add(character.fontname)
                            fontinfo.add(character.size)
                            fontinfo.add(character.graphicstate.scolor)
                            fontinfo.add(character.graphicstate[text]([https://stackoverflow.com](https://stackoverflow.com))
python pdfminer pdf-解析 pdfminersix

评论


答:

0赞 Tim Roberts 9/24/2023 #1

PDF 中的颜色是从 0 到 1 的浮点数,而不是您所期望的从 0 到 255 的整数。