提问人:Santiago Hirsch 提问时间:11/17/2023 更新时间:11/17/2023 访问量:4
PyPDFLoader 西班牙语特殊字符
PyPDFLoader spanish special characters
问:
使用 PyPDFLoader 从 langchain 加载西班牙语 pdf 时,文本不会在打印中显示特殊字符,如重音或 ñ。
有没有办法使用库来正确获取文本?
loader = PyPDFLoader("IBMwiki.pdf")
pages = loader.load()
total_pages = len(pages)
if end_page is None:
end_page = len(pages)
text_list = []
for i in range(start_page-1, end_page):
text = pages[i].page_content
text = text.replace('\n', ' ')
text = re.sub(r'\s+', ' ', text)
text_list.append(text)
print(text_list)
结果: ['Interna'onal Business Machines Corpora'on (IBM) (NYSE: IBM) es una empresa tecnológica mul;nacional estadounidense con sede en Armonk, Nueva York.IBM fabrica y comercial
正确结果:International Business Machines Corporation (IBM) (NYSE: IBM) es una empresa tecnológica multinacional estadounidense con sede en Armonk, Nueva York.IBM fabrica y comercial
答: 暂无答案
评论