从网页中提取含义的完整内容-解网

问：

我正在通过使用我的爬虫挖掘网络内容来做一些分析。网页通常在文章正文周围包含杂乱无章的内容（例如广告、不必要的图像和无关的链接），从而分散用户对实际内容的注意力。

据我所知，提取合理的内容是一个难题，因为没有标准来定义新闻故事/博客文章/论坛评论/文章在网页中的实际位置。

我可以找到一些开源解决方案，例如： https://metacpan.org/pod/HTML::ContentExtractor

但我很好奇是否有人处理过这个问题并得到了合理的成功率。这似乎是一个相当普遍的问题，我愿意相信很多专家都在那里。我更喜欢基于JAVA的解决方案，但这不是一个硬性规定。请提供一些意见。我将深表感激。

html解析网络爬虫文本挖掘

查找通用元素 ID 和类。一个结构良好的网站可能有类似和的东西，这与现在的语义一样。此外，还可以了解常见的CMS平台（如WordPress（“post”）或Drupal（“节点”）使用的标准元素名称。通常，这些将用于标记内容。<div id="content"><div class="article">

最后但并非最不重要的一点是，寻找微格式。

0赞 joeytwiddle 2/15/2016 #2

现在有许多项目将这项任务作为其主要目标。

NPM 包 WCE （Javascript）很有趣，因为它在后台使用了许多其他内容提取模块。

对不起，我本来想早点回答这个问题的，但我很忙。

上一个：我应该使用什么语言/工具进行 HTML 解析？

下一个：将 > 转换为 HTML 字符串中等效的 HTML 实体

从网页中提取含义的完整内容

Extracting meaning full content from web pages

评论