PyPDFLoader 西班牙语特殊字符

PyPDFLoader spanish special characters

提问人:Santiago Hirsch 提问时间:11/17/2023 更新时间:11/17/2023 访问量:4

问:

使用 PyPDFLoader 从 langchain 加载西班牙语 pdf 时,文本不会在打印中显示特殊字符,如重音或 ñ。

有没有办法使用库来正确获取文本?

 loader = PyPDFLoader("IBMwiki.pdf")
    pages = loader.load()
    total_pages = len(pages)

    if end_page is None:
        end_page = len(pages)

    text_list = []
    for i in range(start_page-1, end_page):
        text = pages[i].page_content
        text = text.replace('\n', ' ')
        text = re.sub(r'\s+', ' ', text)
        text_list.append(text)
    print(text_list)

结果: ['Interna'onal Business Machines Corpora'on (IBM) (NYSE: IBM) es una empresa tecnológica mul;nacional estadounidense con sede en Armonk, Nueva York.IBM fabrica y comercial

正确结果:International Business Machines Corporation (IBM) (NYSE: IBM) es una empresa tecnológica multinacional estadounidense con sede en Armonk, Nueva York.IBM fabrica y comercial

PYPDF格式

评论


答: 暂无答案