当page_source随着向下滚动而变化时，如何进行动态网络爬虫-解网

问：

我正在尝试从网站抓取数据。问题是，当我向下滚动时，源代码正在发生变化。

例如

第一次，页面源代码就像......

<div role="presentation" style="transform: translateY(4088px);">
   <div role="row" aria-rowindex="1" aria-selected="false">
   <div role="row" aria-rowindex="2" aria-selected="false">
   <div role="row" aria-rowindex="3" aria-selected="false">
   ...
   <div role="row" aria-rowindex="8" aria-selected="false">

当我向下滚动时

<div role="presentation" style="transform: translateY(4088px);">
   <div role="row" aria-rowindex="22" aria-selected="false">
   <div role="row" aria-rowindex="23" aria-selected="false">
   <div role="row" aria-rowindex="24" aria-selected="false">
   ...
   <div role="row" aria-rowindex="29" aria-selected="false">

我想从此标签中获取信息<div role="row" aria-rowindex="?" aria-selected="false">

现在，我正在使用这段代码。elem = driver.find_element(By.XPATH, f"//div[@aria-rowindex={num+1}]")

我想了一个想法，只是一点一点地向下滚动并获取所有信息，然后再次 scorll ...... 但是我想知道有没有更好的主意来解决这个问题？

网页抓取网络爬虫

当page_source随着向下滚动而变化时，如何进行动态网络爬虫

How to do Dynamic Web Crawling when page_source is changing as scrolling down

评论