如何在 Nokogiri 中解析图像 href-解网

问：

我正在使用 Nokogiri 解析网页，并想解析出图像 URL。这是我的设置：

require 'nokogiri'
require 'open-uri'

doc = Nokogiri::HTML(open('https://themeforest.net/search?sort=sales'))

如果我在 chrome 上检查页面，我可以看到以下代码块：

<div class="_2_3rp " style="padding-top:50.847457627118644%">            
  <div style=""> 
    <img class="_1xvs1" src="https://themeforest.img.customer.envatousercontent.com/files/274559780/screenshots/00-Preview.jpg?auto=compress%2Cformat&amp;fit=crop&amp;crop=top&amp;w=590&amp;h=300&amp;s=37354d884fd0f3b574238e013b4ea423"                                         
      title="Avada | Responsive Multi-Purpose Theme"                    
      alt="Avada | Responsive Multi-Purpose Theme" style="left: 0%;">            
  </div>                                                                     
</div>

但是，当我运行时：

puts doc.search("//div[@class = '_2_3rp ']")

我得到以下信息：

  <div class="_2_3rp " style="padding-top:50.847457627118644%"><div style="height:100%" class="lazyload-placeholder"></div></div>
  <div class="_2_3rp " style="padding-top:50.847457627118644%"><div style="height:100%" class="lazyload-placeholder"></div></div>
  .....
  => nil

为什么我没有得到课程，而是得到了？有什么方法可以克服这个问题，并摆脱图像占位符？imglazyload-placeholder

ruby html 解析 nokogiri

寻求调试帮助的问题（“为什么此代码不起作用？”）必须包括所需的行为、特定问题或错误以及在问题本身中重现它所需的最短代码。请参阅：如何创建最小的、可重现的示例。询问时，请从代码和数据中删除所有不必要的信息。我无法复制这个问题，所以我认为它存在于您没有向我们展示的东西中。而且，“following”输出不能来自输入 HTML，因为第二个是不同的。divstyle

0赞 Ibraheem Ahmed 11/11/2019

@theTinMan我已经用确切的代码更新了我的问题。这是我形成一个可重复的例子的唯一方法。

答：

-1赞 the Tin Man 11/10/2019 #1

以下是我想出的最小代码，用于测试您的断言：

require 'nokogiri'

doc = Nokogiri::HTML(<<EOT)
<div class="12345">
    <div>
        <img class="67890" src="https://foo.bar">
    </div>
</div>
EOT

doc.search('//div[@class=12345]').map(&:to_html)
# => ["<div class=\"12345\">\n" +
#     "    <div>\n" +
#     "        <img class=\"67890\" src=\"https://foo.bar\">\n" +
#     "    </div>\n" +
#     "</div>"]
#     "</div>"]

看起来标签就在那里。img

你正在用它来解析。不要，因为会发生严格的解析，而对于 HTML，这绝不是严格的，如果 HTML 格式不正确，可能会出现问题。Nokogiri::XML

如何在 Nokogiri 中解析图像 href

How to parse the image href in Nokogiri

评论

评论