在 PDF 文档的元数据中搜索-解网

问：

我一直在使用 Google 自定义搜索 API 完成以下任务：

使用“filetype：pdf”搜索某些关键字

这按预期工作正常，但它只允许在 PDF 文档的内容中搜索。但是，我正在尝试在 PDF 文档的元数据或 PDF 文档的内容流中搜索。我搜索了很多，但我认为谷歌没有办法做到这一点。我想知道是否有任何其他搜索引擎，您认为我可以实现我想要的？

谢谢

搜索引擎谷歌自定义搜索雅虎必应搜索引擎 API

评论

0赞 Rich Bianco 10/6/2023

您是否尝试过filetype：pdf intitle：“your PDF keywords”？可能不是你要找的。您可以考虑使用 scholar.google.com

0赞 Afzal K. 10/6/2023

只有当它被索引时，这是可能的

答：

0赞 Enok._.Seth 10/7/2023 #1

我在 github 上找到了这个，但 repo 已存档。它使用不同的组合和方式，脚本没有更新，但我认为如果您使用：

selenium PyPDF2 PyMuPDF json

和其他技术通过修改此脚本，regex

你可以到达那里。

https://github.com/TebbaaX/Katana

以及：seleniumPyPDF2PyMuPDFbsf4

https://pypi.org/project/PyMuPDF/

https://pypi.org/project/PyPDF2/

https://pypi.org/project/BeautifulSoup/

我不知道这是否能帮到你，但从逻辑上讲，你必须抓取文件并对其运行分析以提取元数据？

上一个：Google CSE API 返回同一图像的多个变体

下一个：Google 自定义搜索链接属性设置不正确