提问人:CoccoBlu 提问时间:11/12/2023 更新时间:11/12/2023 访问量:34
如果我有 url 列表,如何将多个页面下载为 pdf?[关闭]
How to download multiple pages as pdfs if i have a list of urls? [closed]
问:
我想将很多网页(特别是由文本行和偶尔的图像组成)下载为 PDF,但手动操作有点太多了。 url 本身很容易迭代,因为它们的形式为“https://www。(网站).com/(东西)/(数字) (site) 和 (stuff) 是静态的,而数字会发生变化。 有没有办法使用chrome标准打印为PDF或任何其他方法下载从n到m的所有站点。 我试着在互联网上看了一下,但我真的没有找到太多可以提供帮助的东西。 我可以用 python、c、css 和 HTML 编写一些代码,但如果我需要另一种编码语言,我已经准备好学习它。 PS:很抱歉,如果帖子有点枯燥,但这是我的第一个,我不确定该写什么。 提前致谢!
答:
您的答案基于您指定的编程。
https://www.(site).com/(stuff)/(number)
其中(站点)和(东西)是固定的,因此只有数字发生变化。
因此,就像 1、2、3 一样,只需在 shell 中创建循环,然后调用浏览器即可。
我使用的是 Windows,所以我的 Chrome 是 MS Edge 的别名,但它们在相同的编程代码库上工作。我已允许包含标题,但关闭方式有所不同,您需要通过浏览器命令级别结帐。(在此网站搜索 https://stackoverflow.com/search?q=headless+no-header+print-to-pdf )
for /l %i in (1,1,3) do @%chrome% --headless --print-to-pdf="%cd%\%i.pdf" https://www.example.com/stuff/%i
在上面的例子中 (n,1,m) 是编号整数,而是当前工作目录文件夹。该保存位置应该是完全限定的,否则您可能会得到一个空白输出,因此在 Windows 上,如果有空格,它应该用引号写成。%i
%cd%
="%cd%\%i.pdf"
评论