nokogiri 问答列表

如何避免在抓取时加入节点中的所有文本

作者:the Tin Man 提问时间:4/25/2017

当我从HTML或XML中抓取几个相关节点来提取文本时,所有文本都连接成一个长字符串,因此无法恢复单个文本字符串。 例如: require 'nokogiri' doc = Nokogiri::H...

使用 Ruby / Nokogiri 解析随机类名

作者:kraftydevil 提问时间:11/7/2020

当涉及到各州美国总统选举选票的剩余百分比时,我一直在手工计算。有这么多的更新和状态 - 这越来越累了。那么,为什么不将流程自动化呢? 这是我正在看的: 问题是类名是随机的。例如,这是我感兴趣的: ...

为什么不能使用正则表达式来解析 HTML/XML:通俗易懂的正式解释

作者:mac 提问时间:7/20/2011

在 SO 上,没有一天没有关于解析 (X)HTML 或 XML 的问题,并被问到正则表达式。 虽然想出一些例子来证明正则表达式对于这项任务的不可行性,或者用一组表达式来表示这个概念是相对容易的,但我...

在 ruby nokogiri 中解析复杂表结构的联接文本

作者:snoozy 提问时间:2/9/2023

我有一个HTML表格,我想从一些td中获取文本。现在,有时文本是单个 td,但有时它会传播成多个 td。如果文本在多个 td 中传播,我该如何加入文本。这是 HTML 代码 <table clas...

如何合并 3 个哈希?

作者:snoozy 提问时间:2/6/2023

我一直在尝试从表中获取一些信息到哈希中,所以这是我有一个如下所示的 HTML 表的代码,我提取party_names和类型并将它们合并到单个哈希中。现在我需要将另一个哈希与参与方地址合并。我能够得到地...

Nokogiri 下一个元素(按类型)

作者:Bad Hombre 提问时间:8/31/2022

说我有 <h3></h3> <h2></h2> <p></p> 如何从以下位置访问节点ph3 现在我只能从中获取不接受任何参数并返回标签。doc.css('h3').next_elementh...

如何使用 Nokogiri 捕获同级标签之间的连续元素?

作者:rosswgray 提问时间:5/31/2022

我有类似以下 HTML 的东西,它代表了多项选择题。模式通常是标签(问题),然后是 和 和 四个 s(答案选项)。但是,只是偶尔,一个问题会超过一个标签。<p><ol><li><p> <ol /> ...

在 Rails 中从 HTML 段落创建文本摘录

作者:sn3p 提问时间:3/7/2022

我正在尝试提取一篇文章的摘录(Markdown 解析为 HTML),其中仅包含段落中的纯文本。所有 HTML 都需要被剥离,换行符、制表符和连续空格需要替换为单个空格。 我的第一步是创建一个简单的测...

如何使用 Nokogiri 获取没有任何文本内容的完整 HTML

作者:jayp 提问时间:10/26/2021

我正在尝试使用 Nokogiri 来获取页面的完整 HTML,但删除了所有文本。 我试过了这个: require 'nokogiri' x = "<html> <body> <div class=...

当我的 Ruby 代码中的 gsub 方法出现问题时,尝试将 HTML &lt;a&gt; 标签替换为从中剥离的 URL

作者:s1rrv 提问时间:3/19/2021

我试图实现基本的替代,但我发现很难确定这里的行为。 我想用其中包含的 URL 替换标签。 这是我的代码: require 'nokogiri' message = "Hi Testin wFA...


共19条 当前第1页