在 PDF 文档的元数据中搜索

Searching inside the metadata of the PDF documents

提问人:Dundar 提问时间:9/15/2023 更新时间:10/7/2023 访问量:76

问:

我一直在使用 Google 自定义搜索 API 完成以下任务:

  • 使用“filetype:pdf”搜索某些关键字

这按预期工作正常,但它只允许在 PDF 文档的内容中搜索。但是,我正在尝试在 PDF 文档的元数据或 PDF 文档的内容流中搜索。 我搜索了很多,但我认为谷歌没有办法做到这一点。我想知道是否有任何其他搜索引擎,您认为我可以实现我想要的?

谢谢

搜索引擎 谷歌自定义搜索 雅虎 必应 搜索引擎 API

评论

0赞 Rich Bianco 10/6/2023
您是否尝试过filetype:pdf intitle:“your PDF keywords”?可能不是你要找的。您可以考虑使用 scholar.google.com
0赞 Afzal K. 10/6/2023
只有当它被索引时,这是可能的

答:

0赞 Enok._.Seth 10/7/2023 #1

我在 github 上找到了这个,但 repo 已存档。 它使用不同的组合和方式, 脚本没有更新,但我认为如果您使用:

selenium PyPDF2 PyMuPDF json

和其他技术通过修改此脚本,regex

你可以到达那里。

https://github.com/TebbaaX/Katana

以及:seleniumPyPDF2PyMuPDFbsf4

https://pypi.org/project/PyMuPDF/

https://pypi.org/project/PyPDF2/

https://pypi.org/project/BeautifulSoup/

我不知道这是否能帮到你,但从逻辑上讲,你必须抓取文件并对其运行分析以提取元数据?