如何避免在抓取时加入节点中的所有文本
作者:the Tin Man 提问时间:4/25/2017
当我从HTML或XML中抓取几个相关节点来提取文本时,所有文本都连接成一个长字符串,因此无法恢复单个文本字符串。 例如: require 'nokogiri' doc = Nokogiri::H...
Nokogiri 问答列表
作者:the Tin Man 提问时间:4/25/2017
当我从HTML或XML中抓取几个相关节点来提取文本时,所有文本都连接成一个长字符串,因此无法恢复单个文本字符串。 例如: require 'nokogiri' doc = Nokogiri::H...
作者:kraftydevil 提问时间:11/7/2020
当涉及到各州美国总统选举选票的剩余百分比时,我一直在手工计算。有这么多的更新和状态 - 这越来越累了。那么,为什么不将流程自动化呢? 这是我正在看的: 问题是类名是随机的。例如,这是我感兴趣的: ...
作者:mac 提问时间:7/20/2011
在 SO 上,没有一天没有关于解析 (X)HTML 或 XML 的问题,并被问到正则表达式。 虽然想出一些例子来证明正则表达式对于这项任务的不可行性,或者用一组表达式来表示这个概念是相对容易的,但我...
作者:snoozy 提问时间:2/9/2023
我有一个HTML表格,我想从一些td中获取文本。现在,有时文本是单个 td,但有时它会传播成多个 td。如果文本在多个 td 中传播,我该如何加入文本。这是 HTML 代码 <table clas...
作者:snoozy 提问时间:2/6/2023
我一直在尝试从表中获取一些信息到哈希中,所以这是我有一个如下所示的 HTML 表的代码,我提取party_names和类型并将它们合并到单个哈希中。现在我需要将另一个哈希与参与方地址合并。我能够得到地...
作者:Bad Hombre 提问时间:8/31/2022
说我有 <h3></h3> <h2></h2> <p></p> 如何从以下位置访问节点ph3 现在我只能从中获取不接受任何参数并返回标签。doc.css('h3').next_elementh...
作者:rosswgray 提问时间:5/31/2022
我有类似以下 HTML 的东西,它代表了多项选择题。模式通常是标签(问题),然后是 和 和 四个 s(答案选项)。但是,只是偶尔,一个问题会超过一个标签。<p><ol><li><p> <ol /> ...
作者:sn3p 提问时间:3/7/2022
我正在尝试提取一篇文章的摘录(Markdown 解析为 HTML),其中仅包含段落中的纯文本。所有 HTML 都需要被剥离,换行符、制表符和连续空格需要替换为单个空格。 我的第一步是创建一个简单的测...
作者:jayp 提问时间:10/26/2021
我正在尝试使用 Nokogiri 来获取页面的完整 HTML,但删除了所有文本。 我试过了这个: require 'nokogiri' x = "<html> <body> <div class=...
作者:s1rrv 提问时间:3/19/2021
我试图实现基本的替代,但我发现很难确定这里的行为。 我想用其中包含的 URL 替换标签。 这是我的代码: require 'nokogiri' message = "Hi Testin wFA...