提问人:Thierry Brémard 提问时间:11/28/2020 更新时间:11/28/2020 访问量:1318
在 C 中查找 HTML 的 XPath 内容#
Locate XPath content of HTML in C#
问:
我在 C# .net Core 中工作。
- 我有 HTML 文件
- 对于每个文件,我都有一个指向页面部分的XPATH
我可以在 C# 中使用哪个库/nuget 包来提取数据?
我想要:
extractedData = xpathLib.Extract(htmlContent, xpath)
我不想使用加载html浏览器进程的技术(如selenium驱动程序打开chrome),因为我每天必须提取10 000个网页。
问候。 PS:我看到微软提供了XPath库,但它只针对XML。
答:
3赞
Göksel ÖZER
11/28/2020
#1
您可以使用 HTML Agility Pack
此 nuget 适用于 XPATH、XDocument 和 LINQ。并且易于使用。
下面是 HTML Agility Pack 中的一个示例:
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);
var value = doc.DocumentNode.SelectNodes("//td/input");
评论
0赞
Göksel ÖZER
11/28/2020
是的。我曾经从一页中获取书籍的详细信息。我不明白你的第二个问题。
评论