删除 PDF 中重复的嵌入字体子集

Remove duplicate embedded subsets of font in PDFs

提问人:ma hei pang 提问时间:10/31/2023 最后编辑:Tilman Hausherrma hei pang 更新时间:10/31/2023 访问量:49

问:

我正在使用 pdfbox-2.0.24 合并多个 PDF。但是,合并后的文件大小太大,因为它包含许多重复的嵌入字体子集。例如,我合并了 1 .pdf 和 2 .pdf,它显示了一些重复的字体列表,如图 1 所示。

enter image description here

我尝试了 mkl 提供的源代码:(如何使用 pdfbox 或其他 java 库减小合并的 PDF/A-1b 文件的大小)

但是,它对我不起作用。任何人都可以想到在合并 PDF 中删除重复的嵌入字体子集吗?

PDF格式 PDF框

评论

2赞 Tilman Hausherr 10/31/2023
你怎么知道子集是完全相同的?
1赞 mkl 10/31/2023
事实上,你提到的我的旧答案没有区别,这表明这些子集存在差异。
0赞 ma hei pang 11/1/2023
感谢 Tilman、mkl 和 KJ 的准确回复,它们帮助我理清了思路。似乎“相同”的子集并不完全相同,并且没有减少内部重复的解决方案。
0赞 ma hei pang 11/2/2023
@TilmanHausherr 是否可以创建嵌入全套字体的新 PDF?例如,添加了带有字体源 - Calibri.tff 的 PDF “Hello World”。pdfBox 可以将整个 Calibri.tff 嵌入为字体的嵌入子集吗?所以我可以减少相同的“FULL”字体子集吗?
1赞 Tilman Hausherr 11/2/2023
我不知道这是否可行。我从未尝试过使用非简单字体。您可以通过替换资源中的字体来尝试它。问题在于,由于许多字体很大,最终文件可能仍然更大。

答: 暂无答案