如何从漂亮的 soup 对象获取 HTML

How to get HTML from a beautiful soup object

提问人:user1592380 提问时间:9/9/2014 最后编辑:alecxeuser1592380 更新时间:12/16/2014 访问量:111471

问:

我有以下 bs4 对象列表:

>>> listing
<div class="listingHeader">
<h2>
....


>>> type(listing)
<class 'bs4.element.Tag'>

我想将原始 html 提取为字符串。我试过:

>>> a = listing.contents
>>> type(a)
<type 'list'>

所以这是行不通的。我该怎么做?

python html beautifulsoup html 解析

评论


答:

175赞 alecxe 9/9/2014 #1

只需获取字符串表示形式:

html_content = str(listing)

这是一个非美化版本。

如果你想要一个美化的,请使用 prettify() 方法:

html_content = listing.prettify()

评论

1赞 user1592380 9/9/2014
有没有办法把它变成一个unicode字符串,我收到一个错误:“WebDriverException:消息:u'missing;在语句之前' ”
4赞 BadAtLaTeX 9/14/2018
我正在为变音符 ä,ö,ü 等特殊字符而苦苦挣扎。人们可能想使用 - 比较 crummy.com/software/BeautifulSoup/bs4/doc/#output-formatterssoup.prettify( formatter="html" )
0赞 raviraj 10/11/2021
当我将强制转换标记对象键入到 str 时,我得到 \n\t\r。