使用 Selenium 从网页中抓取表格数据

Scraping table data from webpage with Selenium

提问人:insomniacnomad 提问时间:3/19/2023 最后编辑:insomniacnomad 更新时间:3/19/2023 访问量:36

问:

我正在使用 selenium 来抓取一个费用表,我必须登录费用仪表板。该表带有适当的 & 标签,因此我使用pd.read_html。

我正在使用以下命令:

df = pd.read_html(driver.page_source)

我能够抓取数据,但我面临的问题是我得到的数据被截断了。问题在于页面中的表格本身没有呈现单元格值的全文。基本上,文本不会换行在单元格中。

<span class="genericTableClass primaryTextStyle"><div data-tip="Copy to clipboard" data-class="tooltipStyleClass" currentitem="false" style="cursor: text;">HPCTU2023318141...</div></span>

这是表格的样子。桌子

这不是一个一次性的问题。整张桌子就是这样。有人可以告诉我如何解决这个问题吗?

如果pd.read_html的任何其他替代方案可以解决这个问题,那也是受欢迎的。

P.S. - 我是刮擦的初学者。这是我在 Stackoverflow 上的第一个问题。

html pandas selenium-webdriver 网页抓取 html 解析

评论

1赞 Corralien 3/19/2023
请提供您要抓取的网址(如果该网址是公开的)

答: 暂无答案