提问人:Dundar 提问时间:9/15/2023 更新时间:10/7/2023 访问量:76
在 PDF 文档的元数据中搜索
Searching inside the metadata of the PDF documents
问:
我一直在使用 Google 自定义搜索 API 完成以下任务:
- 使用“filetype:pdf”搜索某些关键字
这按预期工作正常,但它只允许在 PDF 文档的内容中搜索。但是,我正在尝试在 PDF 文档的元数据或 PDF 文档的内容流中搜索。 我搜索了很多,但我认为谷歌没有办法做到这一点。我想知道是否有任何其他搜索引擎,您认为我可以实现我想要的?
谢谢
答:
0赞
Enok._.Seth
10/7/2023
#1
我在 github 上找到了这个,但 repo 已存档。 它使用不同的组合和方式, 脚本没有更新,但我认为如果您使用:
selenium
PyPDF2
PyMuPDF
json
和其他技术通过修改此脚本,regex
你可以到达那里。
https://github.com/TebbaaX/Katana
以及:selenium
PyPDF2
PyMuPDF
bsf4
https://pypi.org/project/PyMuPDF/
https://pypi.org/project/PyPDF2/
https://pypi.org/project/BeautifulSoup/
我不知道这是否能帮到你,但从逻辑上讲,你必须抓取文件并对其运行分析以提取元数据?
评论