提问人:Pous17 提问时间:11/17/2023 最后编辑:Pous17 更新时间:11/17/2023 访问量:53
如何从 html 文件中查找和获取文本?
How to find and fetch text from a html file?
问:
<div>
<div>
<h1>Title</h1>
<p>Some text i want to fetch</p>
</div>
<RandomVueComponent>Some other text i want to fetch</RandomVueComponent>
</div>
<a href="#">Might be some text too</a>
我正在通过 python 脚本使用正则表达式来扫描我的代码库。这些脚本会向我返回代码库中所有文本的列表,以及它们的文件路径、行...等。所以我可以跟踪我的 html 文件中的文本。但是,我找不到找到所有文本的方法,无论它在 html 分隔符中嵌套了多少,也无论分隔符本身如何。所以分隔符不能用作匹配键(如)。r'<p>text</p>
我想尽可能避免使用库。 我听说过 Beautiful Soup,但我认为它需要一个匹配的键(例如 html 标签)。
我尝试了什么?我尝试了一些粗略的正则表达式,但显然不起作用。
答:
1赞
Smirithika Chandrasegar
11/17/2023
#1
请尝试以下操作:
(?<=\>)[A-Za-z0-9 ]+
评论
0赞
Matthias
11/21/2023
这不包括 ASCII 范围之外的所有字母,当有人从我身边拿走“Motörhead”时,我感到非常不高兴。而这只是这种方法的众多缺陷之一。只需将问题中 p 元素中的文本替换为“不要忘记这个”即可。
评论