使用 lxml 从 HTML 文件中提取数据时出错:无法识别 cssselect

Error while extracting data from an HTML file using lxml: cssselect is not recognised

提问人:camelkos 提问时间:7/21/2020 最后编辑:double-beepcamelkos 更新时间:7/21/2020 访问量:76

问:

我正在使用 Python 的函数 BeautifulSoup 来解析 HTML 文件。它正在工作,但当涉及到大文件时,它太慢了。通过在互联网上搜索,我发现 lxml 更好更快。

我想实现以下代码,但它不起作用:

import lxml
import lxml.html as lh
root = lxml.html.fromstring(html_data)
links_lxml_res = root.cssselect("a.detailsViewLink")
links_lxml = [link.get("C:/Month01/A7600607_20200324_112123_1.html") for link in links_lxml_res]
links_lxml = list(set(links_lxml))

错误面板显示无法识别,当我尝试安装它时,出现以下错误:cssselectpip install cssselect

ERROR: Could not find a version that satisfies the requirement cssselect (from versions: none)
ERROR: No matching distribution found for cssselect
python html 解析 lxml

评论


答: 暂无答案