如何从抓取的数据中删除模式和空格？-解网

问：

我已经抓取了数据，但很难删除标签和空格，以便每个字符串单词都可以迭代，然后作为一对添加到键中

我将结果转换为字符串，使用 map 函数和连接，然后使用正则表达式删除行空，结果仍然有一些标签，但无法迭代字符串，因为即使我尝试从字符串转换回列表，它现在也是一个字符串。

datetime_end_list = []
datetime = soup.find_all(class_="cloture-line")
for dt in datetime:
      df_text = dt.getText()
      datetime_end_list.append(df_text)
print(datetime_end_list)
'\r\n                                            17/04/202311:00\r\n                                        ', '\n...\n\n\n\n\n\n', '\r\n                                            28/02/202310:00\r\n                                        ', '\n...\n\n\n\n\n\n', '\r\n                                            02/02/202311:00\r\n                                        ', '\n...\n\n\n\n\n\n', '\r\n                                            01/02/202309:00\r\n                                        ', '\n...\n\n\n\n\n\n', '\r\n                                            30/01/202310:00\r\n                                        ', '\n...\n\n\n\n\n\n', '\r\n                                            25/01/202312:00\r\n                                        ', '\n...\n\n\n\n\n\n', '\r\n                                            25/01/202309:00\r\n                                        ', '\n...\n\n\n\n\n\n', '\r\n                                            24/01/202312:00\r\n                                        ', '\n...\n\n\n\n\n\n', '\r\n                                            24/01/202311:00\r\n                                        ', '\n...\n\n\n\n\n\n', '\r\n                                            24/01/202310:00\r\n                                        ', '\n...\n\n\n\n\n\n'

开始清洁：

datetime_clean = ' '.join(map(str,datetime_end_list))
datetime_clean2 = re.sub(r'^\s+', '', datetime_clean, flags=re.MULTILINE)
print(datetime_clean2)

17/04/202311:00
...
28/02/202310:00
...
02/02/202311:00
...
01/02/202309:00
...
30/01/202310:00
...
25/01/202312:00
...
25/01/202309:00
...
24/01/202312:00
...
24/01/202311:00
...
24/01/202310:00
...

python-3.x 网页抓取 beautifulsoup strip-tags

如何从抓取的数据中删除模式和空格？

How to remove patterns and whitespaces from a scraped data?

评论

评论