在 Python 中使用 lxml 和 XPath 清理 HTML-解网

问：

我正在学习python和lxml工具包。我需要处理本地目录中的多个 .htm 文件（递归）并删除不需要的标签，包括其内容（ID 为“box”、“columnRight”、“adbox”、“footer”、div class=“box”的 div，以及所有样式表和脚本）。不知道该怎么做。我有列出目录中所有 .htm 文件的代码：

#!/usr/bin/python
import os
from lxml import html
import lxml.html as lh

path = '/path/to/directory'
for root, dirs, files in os.walk(path):
    for name in files:
        if name.endswith(".htm"):
        doc=lh.parse(filename)

所以我需要添加部分，创建一个树，处理html并删除不必要的div，比如

for element in tree.xpath('//div[@id="header"]'):
    element.getparent().remove(element)

如何为此调整代码？

HTML 页面示例。

python xpath html 解析 lxml .html

我需要递归遍历一个目录，找到所有 .htm 文件，然后使用一些东西来检索 htm 页面并解析它，以删除目标元素。第一个片段不适合这个目的，所以我编辑了。我不确定如何继续，列出树元素并加入第二个片段。tree = html.parse(path)

答：

1赞 Jack Fleeting 8/24/2021 #1

如果不查看实际文件，很难分辨，但请尝试以下操作，看看它是否有效：

首先，你不需要两者

from lxml import html
import lxml.html as lh

所以你可以放弃第一个。然后

for root, dirs, files in os.walk(path):
    for name in files:
        if name.endswith(".htm"):           
           tree = lh.parse(name)
           root = tree.getroot()
           for element in root.xpath('//div[@id="header"]'):
               element.getparent().remove(element)

在 Python 中使用 lxml 和 XPath 清理 HTML

Cleanup HTML using lxml and XPath in Python

评论

评论