提问人:sam 提问时间:5/14/2011 最后编辑:Nauphalsam 更新时间:8/27/2013 访问量:9220
将 doc、docx、pdf 转换为 HTML 使用 PHP linux
Converting doc, docx, pdf to HTML using PHP linux
问:
我经营一个求职网站,我需要在运行 php 的 linux CentOS 服务器上将 doc、docx 和 pdf 文件转换为 HTML。人们将这些文件作为简历提交。到目前为止,我发现 PHPDocx 非常适合将 docx 转换为 html。但是我被困在doc / pdf上。当我运行测试时,PDFTOHTML给出错误“颜色不好”。就文档而言,我只找到了 wvwave,它似乎安装起来既复杂又笨重。
有没有人对如何轻松地将 doc/pdf 转换为 HTML 有任何想法?
答:
我唯一能想到的就是 FPDF。 它用于在 PHP 中创建 PDF 文件,但它也可以打开 PDF 文件。 也许你可以以它为基础,为它开发某种toHTML函数。
它是完全免费使用的,并且已经有一些扩展。 它可能会对您有所帮助。
编辑: 感谢您在对 Pierre 的评论中对我的帖子的补充:
您可以使用 fpdi: http://www.setasign.de/products/pdf-php-solutions/fpdi,但输入的 pdf 就像图像一样。
到目前为止,我自己还没有看过它,但这可能会有所帮助。
评论
就 .doc 文件而言,尝试 OpenOffice/LibreOffice 怎么样,比如:
就 PDF 而言,如果 PDF 是文本的图形表示,那么你就不走运了,最好的办法是尝试使用 ImageMagick 将其转换为图像,如果它是正确的文本,它应该很容易转换。lowriter -convert-to html doc_file.doc –
为了轻松地将 pdf 转换为 html,我建议使用 pdf2htmlEX,它可以生成出色的 HTML,并且速度足够快,可以进行运行时转换。您应该首先为您的系统付出一些努力来优化和构建它。项目链接上包含简单的构建方法。
已经有各种工具可以做到这一点,例如 http://dag.wieers.com/home-made/unoconv/、http://www.phpdocx.com/(您已经尝试过)
http://www.phplivedocx.org/2009/08/13/convert-docx-doc-rtf-to-html-in-php/ 看起来很有希望。
或者,您可以在服务器上安装可移植版本的 libreoffice,该版本允许命令行转换 https://help.libreoffice.org/Common/Starting_the_Software_With_Parameters
我相信会有教程(在 libreoffice 支持区)
下一个:大表的 Mysql 性能
评论
gs
可以将任何 PDF(除非数据是嵌入图像)移植到 XML;我猜是HTML。我不是把它作为答案发布,因为它在批处理模式下的RAM太重了。