如何使用 lxml 清理 HTML 字符串以在 python 中解析它?
作者:h s 提问时间:5/13/2020
我有一个 python 字符串,其中包含 HTML 代码,来自我想使用 lxml 库解析的 JSON。该字符串具有多个转义字符和其他特殊字符。如何清理此代码,以便我可以使用 lxml 从中提取信息?我...
LXML 问答列表
作者:h s 提问时间:5/13/2020
我有一个 python 字符串,其中包含 HTML 代码,来自我想使用 lxml 库解析的 JSON。该字符串具有多个转义字符和其他特殊字符。如何清理此代码,以便我可以使用 lxml 从中提取信息?我...
作者:tec data 提问时间:6/4/2020
我有一个如下所示的 html 模板文件,我想在我的 python 脚本中将标题和正文替换为字典值。 <!DOCTYPE html> <html> <head> <meta http-equiv=...
作者:DankCoder 提问时间:6/9/2020
最近,我开始使用 BeautifulSoup 制作一个 YouTube 视频信息提取器,并对其进行了基准测试,发现它非常慢(每个视频大约 1-3 秒),并且当它必须查询大量 url 列表时效率低下 ...
作者:camelkos 提问时间:7/21/2020
我正在使用 Python 的函数 BeautifulSoup 来解析 HTML 文件。它正在工作,但当涉及到大文件时,它太慢了。通过在互联网上搜索,我发现 lxml 更好更快。 我想实现以下代码,但...
作者:Dave 提问时间:10/5/2020
我正在使用 Beautiful Soup 4 和 Python 3.8。我只想解析 HTML 页面中的某些元素,所以我决定使用这样的过滤器...... req = urllib2.Request(f...
作者:James Sulak 提问时间:8/16/2008
当我使用 lxml 解析 XML 文档时,有没有办法使用外部目录文件根据其 DTD 验证该文档?我需要能够处理文档的 DTD 中定义的固定属性。...
作者:Ben On Track 提问时间:1/27/2021
我有一个包含 2 个地标的 KML 文件: Test1 和 Test2。 <kml xmlns="http://earth.google.com/kml/2.2"> <Document> <Pla...
作者:John 提问时间:11/30/2022
在我的 xml 文件中,我一开始就有。但是如果我将其编码为字符串,它就会消失。我的意思是我的字符串在开始时不再有它了。我以为我可以简单地将它插入我的字符串中,就像在下面的代码中一样(打印时有效),但是...
作者:Moder New 提问时间:3/26/2021
好的,所以我有这样的 HTML 代码: <span class="lista_td_calendar" rel="1617096300">finished</span> 我想使用 lxml 获取...
作者:Milano 提问时间:5/24/2021
我正在解析具有“g”和空命名空间的Google产品XML文件。 <feed ... <entry> <g:id>2</g:id> <title>Some product 尝试在获取时使用属...