如何避免在抓取时加入节点中的所有文本-解网

问：

当我从HTML或XML中抓取几个相关节点来提取文本时，所有文本都连接成一个长字符串，因此无法恢复单个文本字符串。

例如：

require 'nokogiri'

doc = Nokogiri::HTML(<<EOT)
<html>
  <body>
    <p>foo</p>
    <p>bar</p>
    <p>baz</p>
  </body>
</html>
EOT

doc.search('p').text # => "foobarbaz"

但我想要的是：

["foo", "bar", "baz"]

抓取 XML 时也会发生同样的情况：

doc = Nokogiri::XML(<<EOT)
<root>
  <block>
    <entries>foo</entries>
    <entries>bar</entries>
    <entries>baz</entries>
  </block>
</root>
EOT

doc.search('entries').text # => "foobarbaz"

为什么会发生这种情况，我该如何避免？

HTML Ruby XML 解析 nokogiri

评论

答：

6赞 the Tin Man 4/25/2017 #1

这是一个很容易解决的问题，这是由于没有阅读有关在 NodeSet 上与 Node（或 Element）上使用时的行为方式的文档造成的。text

NodeSet 文档说将：text

获取所有包含的 Node 对象的内部文本

这就是我们所看到的：

doc = Nokogiri::HTML(<<EOT)
<html>
  <body>
    <p>foo</p>
    <p>bar</p>
    <p>baz</p>
  </body>
</html>
EOT

doc.search('p').text # => "foobarbaz"

因为：

doc.search('p').class # => Nokogiri::XML::NodeSet

相反，我们想要获取每个节点并提取其文本：

doc.search('p').first.class # => Nokogiri::XML::Element
doc.search('p').first.text # => "foo"

这可以使用以下方法完成：map

doc.search('p').map { |node| node.text } # => ["foo", "bar", "baz"]

Ruby 允许我们更简洁地编写它，使用：

doc.search('p').map(&:text) # => ["foo", "bar", "baz"]

无论我们使用的是 HTML 还是 XML，同样的事情都适用，因为 HTML 是 XML 的更宽松版本。

节点具有多个别名方法来获取其嵌入的文本。从文档中：

#content ⇒ Object

也称为：，textinner_text

返回此节点的内容。

上一个：如何通过 Nokogiri 在页面上获取特定的可查看字符串

下一个：我无法解析页面并获取链接 Nokogiri