Nokogiri 在使用 <meta charset='UTF-8 解析 html 时引发错误>
作者:Pierre-Louis Lacorte 提问时间:11/25/2020
Nokogiri::HTML 在添加到 .html 文件时引发错误。<meta charset='UTF-8> 该文件如下所示: <!DOCTYPE html> <html> <head> ...
nokogiri 问答列表
作者:Pierre-Louis Lacorte 提问时间:11/25/2020
Nokogiri::HTML 在添加到 .html 文件时引发错误。<meta charset='UTF-8> 该文件如下所示: <!DOCTYPE html> <html> <head> ...
作者:Vlad Zloteanu 提问时间:5/6/2010
我有一个巨大的XML(>400MB)包含产品。因此,使用 DOM 解析器被排除在外,所以我尝试使用拉取解析器来解析和处理它。下面是我遍历产品列表的方法的片段。each_product(&block) ...
作者:Ibraheem Ahmed 提问时间:11/10/2019
我正在使用 Nokogiri 解析网页,并想解析出图像 URL。这是我的设置: require 'nokogiri' require 'open-uri' doc = Nokogiri::HTML...
作者:Dtrav 提问时间:5/15/2020
目前,我能够使用 Nokogiri 解析网站并从页面中获取特定元素。但是,我需要能够抓取用户可见的特定字符串,例如“缺货”: page.text.match('Out of stock') 这...
作者:Vitalii 提问时间:1/19/2020
我无法通过 Nokogiri 解析获取链接列表,https://chromedriver.storage.googleapis.com/index.html?path=79.0.3945.36/ 我...
作者:Daniel S. 提问时间:10/2/2016
最近几天,我一直在寻找任何解决方案,以使用 Nokogiri 获取多个节点,具体取决于祖先节点中的引用变量。 我需要什么: 实际上,我正在收集“Segment”节点的所有“Id”。然后,我想在“Se...
作者:alex velasquez 提问时间:10/24/2019
我正在抓取 Techcrunch.com 并抓取每篇文章的标题、URL 和预览文本。 我有: require 'nokogiri' require 'open-uri' class TestSc...
作者:Tim Morton 提问时间:11/12/2015
我需要从大型XML文件中提取一个片段,并且只处理该片段。 xml = <<XMLEND <CFRDOC xsi:noNamespaceSchemaLocation="CFRMergedXML.xsd...
作者:seane 提问时间:4/11/2014
背景:我正在使用 Ruby 的 Nokogiri gem 来解析 XML 文件。我遇到的问题是,当字符串包含 时,SAX 解析器会返回不完整的结果,这是 的 HTML 编码。例如:>> <el...