提问人:Luchian Grigore 提问时间:12/4/2011 更新时间:3/9/2021 访问量:48553
如何将PDF转换为HTML?[关闭]
How to convert PDF to HTML? [closed]
问:
我们不允许提出有关书籍、工具、软件库等建议的问题。您可以编辑问题,以便用事实和引文来回答。
去年关闭。
社群在上个月审查了是否要重新讨论这个问题,并关闭了这个问题:
原始关闭原因未解决
是否有合适的库可用于将 PDF 转换为 HTML 或其他可以轻松转换为 HTML 的格式?
我搜索了类似的问题,但没有运气。
我希望能够从 PDF 中提取文本,可能是图像。我不想将 PDF 嵌入到 HTML 中。
答:
是的,这绝对是可能的。 如果您在 ubuntu linux 上
apt-get install pdftohtml
然后
pdftohtml myFile.pdf myFile.htm -c -noframes
如果您想查看所有标志的含义,只需键入
pdftohtml
如果您不在 linux 上,您可以使用大量工具来实现这一点。
评论
pdftohtml
就像我在上面的评论中提到的,绝对可以使用工具将pdf转换为html Able2Extract7 可以从这里下载
我已经使用这个工具将近 2 年了,我对它非常满意。此工具可让您将 PDF 转换为 Word、Excel、PowerPoint、Publisher、HTML、OO 等。看截图
注意:此工具不是免费软件。
HTH型
评论
下载
- pdfbox-2.0.3.jar
- 字体框-2.0.3.jar
- 预检-2.0.3.jar
- xmpbox-2.0.3.jar
- pdfbox-tools-2.0.3.jar
- pdfbox-调试器-2.0.3.jar
与 http://pdfbox.apache.org/ 相比
import java.io.InputStream;
import java.io.IOException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.tools.PDFText2HTML;
// .....
try {
InputStream is = // ..... Read PDF file
PDDocument pdd = PDDocument.load(is); //This is the in-memory representation of the PDF document.
PDFText2HTML converter = new PDFText2HTML(); // the converter
String html = converter.getText(pdd); // That's it!
pdd.close();
is.close();
} catch (IOException ioe) {
// ......
}
请注意:图像不会被推送到 HTML 输出。
评论
如果您使用的是 Linux,请尝试:pdftohtml
sudo apt-get install poppler-utils
pdftohtml -enc UTF-8 -noframes infile.pdf outfile.html
在 MacOS(使用自制软件)上可以安装:pdftohtml
brew install pdftohtml
开源电子书转换器 Calibre 还可以将 PDF 文件转换为 HTML,可在 MacOS、Windows 和 Linux 上使用。
评论
将 PDF 转换为 HTML 并不难。有许多在线选项,但是,这些选项可能会将您的数据暴露给第三方。按照以下步骤操作,输出很棒。
打开PDF2HTMLEX页面。 (您可以按照我提到的后续步骤进行操作,也可以按照页面上的说明进行操作。
-
从许多可用的选项中,我建议下载“pdf2htmlEX-win32-0.14.6-upx-with-poppler-data.zip(pdf2htmlEx.exe 包含 UPX)”
下载和解压缩后,只需一个cmd命令即可进行转换。
C:\Users\kjk\Downloads\pdf2htmlEX-win32-0.14.6-upx-with-poppler-data>pdf2htmlEX.exe c:\1\abc.pdf
最终命令:
pdf2htmlEX.exe c:\1\abc.pdf
(您当然可以缩短文件夹的名称,但是,我将其保留为您在解压缩下载后看到的相同。我假设您可以将 cmd 中的目录更改为所需的文件夹,否则 Google 如何。
abc.pdf 将转换为 HTML,并将作为 abc.HTML 保存在与 exe 相同的文件夹中。
评论
brew install pdf2htmlEX
sudo port install pdf2htmlex
这是 Linux 和pdfgrep
sed
sudo apt install pdfgrep
pdfgrep .yourdoc.pdf | sed '/^$/d'| sed -e 's/^%%/<p>%%/'| sed -e 's/^--/<p>--/' | sed -e 's/--$/--<p>/'> yourdoc.html
要正确格式化,您需要使用 相应地指定正则表达式。sed
评论