Apache Nutch 仅将文章页面索引到 Solr

Apache Nutch index only article pages to Solr

提问人:Hafiz Muhammad Shafiq 提问时间:8/25/2020 更新时间:8/26/2020 访问量:192

问:

我已经设置了 Nutch 1.17 来抓取几个网站。像往常一样,在高级别可以有两种类型的网页。首先是那些不包含任何特定故事的详细信息但提供多个页面的链接和短文本的类别页面或主页。其次,有些页面包含完整故事的详细信息,即文章。

现在我的问题是我如何识别这是实际的文章页面,而此页面是类别页面。此外,我也有兴趣只索引故事页面?

我认为 Nutch 默认没有任何内容。我怎样才能实现这种行为?

Solr 爬虫 Nutch 网络挖掘 Nutch2

评论


答:

0赞 Jorge Luis 8/26/2020 #1

从本质上讲,问题归结为如何识别文章/故事页面与主页或类别页面。这通常是非常特定于域的,并且可能取决于许多因素(在服务器端重写规则或使用的CMS等)。

如果您对要抓取的域相当熟悉,也许您可以使用正则表达式来区分不同类型的页面。假设您可以使用正则表达式(或 中存在的其他字段)来区分页面,您应该能够使用 index-jexl-filter 插件有选择地仅索引这些文章页面。NutchDocument

我想说的是,通常您不会想完全跳过类别页面(或主页),因为这些类型的页面通常是您抓取新链接的良好来源。