仅保留在正则表达式 [duplicate] 的 HTML 标记之外

Keep only outside of HTML tags by regex [duplicate]

提问人:Pubg Mobile 提问时间:11/11/2023 更新时间:11/14/2023 访问量:74

问:

我有一个列表,如下所示:

  <td class="News"><a href="ubuntu">Ubuntu</a></td>
  <td class="News" style="text-align: right" title="Yesterday: 2578">2571<img src="/web/20061130064026im_/http://distrowatch.com/images/other/adown.png" alt="<" title="Yesterday: 2578"></td>
  <td class="News"><a href="suse">openSUSE</a></td>
  <td class="News" style="text-align: right" title="Yesterday: 1943">1943<img src="/web/20061130064026im_/http://distrowatch.com/images/other/alevel.png" alt="=" title="Yesterday: 1943"></td>
  <td class="News"><a href="fedora">Fedora</a></td>
  <td class="News" style="text-align: right" title="Yesterday: 1420">1422<img src="/web/20061130064026im_/http://distrowatch.com/images/other/aup.png" alt=">" title="Yesterday: 1420"></td>
  <td class="News"><a href="mepis">MEPIS</a></td>

现在,我只想保留在HTML标签之外或记事本++
中,例如,在上面的列表中,只有以下内容必须保留,其他内容必须删除:
>*****<

Ubuntu
2571
openSUSE
1943
Fedora
1422
MEPIS

我尝试遵循正则表达式,但它并不准确,并且还保留了额外的代码:

>([^<>]+)<

我的正则表达式问题在哪里?

正则表达式 记事本++

评论

0赞 Jesse 11/11/2023
不要使用正则表达式。如果你需要一个快速的解决方案,在浏览器中打开它,并编写一个快速的JS脚本来做到这一点,解释在这里。不那么令人头疼,更可靠。
0赞 Pubg Mobile 11/11/2023
@Jesse我想通过记事本++将此正则表达式应用于大量html文件,并且必须使用正则表达式!
1赞 Jesse 11/11/2023
正如我链接的答案中所解释的,正则表达式不够复杂,无法充分解析 HTML。查看您的个人资料,您似乎对 Python 很熟悉。如果你有很多事情要做,我建议你用 beautifulsoup 写一个简单的脚本来做到这一点。正则表达式根本不是这项工作的正确工具。
1赞 Toto 11/11/2023
你不能用正则表达式来做到这一点,因为 & .用你喜欢的脚本语言编写脚本。alt="<"alt="<"
1赞 Toto 11/11/2023
一下这个

答:

0赞 Prashant P 11/14/2023 #1

获取示例中提到的结果。

查找内容:(?:<[\s\w=“-:]+>\s*)+(\w+).+

替换为: $1

使用此屏幕中显示的选项。Find Replace Notepad ++ screen

评论

0赞 Toto 11/14/2023
如果要捕获的值包含单词字符以外的其他字符,则此操作将不起作用。
0赞 Prashant P 11/16/2023
根据给定的样本编写正则表达式。