当有另一个带有文本的标签时，LXML 库不会提取给定 HTML 标签中的文本-解网

问：

我有以下html脚本：

<div>
    <p class="test1"> 
        <i class="empty"> </i> 
        WANTED TEXT 
    </p>
</div>

我想提取标签（WANTED TEXT）的上下文。我的代码：p

from lxml import etree
from io import StringIO
html_parser = etree.HTMLParser()
tmp_xp = "//p[1]"
selected_tag = etree.parse(StringIO("""<div> <p class="test1"> <i class="empty"> </i> WANTED TEXT </p> </div>"""), html_parser).xpath(tmp_xp)
print(selected_tag[0].text)

代码不打印任何内容。如果我移动到标签之前，代码开始正常工作。WANTED TEXT<i>

我该如何解决这个问题？

python html 解析 lxml

当有另一个带有文本的标签时，LXML 库不会提取给定 HTML 标签中的文本

lxml library doesn't extract text in a given html tag when there is another tag with the text

评论