LangChain嵌入PDF错误:AttributeError:“list”对象没有属性“page_content”

LangChain embedding PDF error: AttributeError: 'list' object has no attribute 'page_content'

提问人:Encomium 提问时间:11/10/2023 更新时间:11/10/2023 访问量:37

问:

在使用 PDF 页面作为 LangChain/OpenAI 的嵌入时,为什么会发生这种情况。任何帮助都是值得赞赏的。

法典:

from langchain.document_loaders import PyPDFLoader
from langchain.vectorstores import FAISS
from langchain.embeddings.openai import OpenAIEmbeddings

loader = PyPDFLoader("FILENAME.pdf")
pages = loader.load_and_split()

docs = loader.load()
texts = [doc.page_content for doc in docs]

# Create embeddings
embedder = OpenAIEmbeddings()  
embeddings = embedder.embed_documents(texts)

# Store in vectorstore
store = FAISS.from_documents(pages, OpenAIEmbeddings())
store.add_documents(embeddings)

错误:

AttributeError:“list”对象没有属性“page_content”

openai-api pypdf 语言链

评论


答:

0赞 ZKS 11/10/2023 #1

您需要对代码进行轻微更改

        from langchain.document_loaders import PyPDFLoader
        from langchain.vectorstores import FAISS
        from langchain.embeddings.openai import OpenAIEmbeddings

        loader = PyPDFLoader("FILENAME.pdf")
        docs = loader.load_and_split()

        texts = [doc.page_content for doc in docs]

        # Create embeddings
        embedder = OpenAIEmbeddings()  
        embeddings = embedder.embed_documents(texts)

        # Store in vectorstore
        store = FAISS.from_documents(pages, OpenAIEmbeddings())
        store.add_documents(embeddings)

评论

0赞 Encomium 11/12/2023
同样的错误。你能确认这对你有用吗?