在 C 中查找 HTML 的 XPath 内容#

Locate XPath content of HTML in C#

提问人:Thierry Brémard 提问时间:11/28/2020 更新时间:11/28/2020 访问量:1318

问:

我在 C# .net Core 中工作。

  • 我有 HTML 文件
  • 对于每个文件,我都有一个指向页面部分的XPATH

我可以在 C# 中使用哪个库/nuget 包来提取数据?

我想要:

extractedData = xpathLib.Extract(htmlContent, xpath)

我不想使用加载html浏览器进程的技术(如selenium驱动程序打开chrome),因为我每天必须提取10 000个网页。

问候。 PS:我看到微软提供了XPath库,但它只针对XML。

C# XPath 网页抓取 HTML 解析

评论


答:

3赞 Göksel ÖZER 11/28/2020 #1

您可以使用 HTML Agility Pack

此 nuget 适用于 XPATH、XDocument 和 LINQ。并且易于使用。

下面是 HTML Agility Pack 中的一个示例:

var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);
var value = doc.DocumentNode.SelectNodes("//td/input");

评论

0赞 Göksel ÖZER 11/28/2020
是的。我曾经从一页中获取书籍的详细信息。我不明白你的第二个问题。