当page_source随着向下滚动而变化时,如何进行动态网络爬虫

How to do Dynamic Web Crawling when page_source is changing as scrolling down

提问人:Ingyu Seo 提问时间:11/17/2023 更新时间:11/17/2023 访问量:8

问:

我正在尝试从网站抓取数据。 问题是,当我向下滚动时,源代码正在发生变化。

例如

第一次,页面源代码就像......

<div role="presentation" style="transform: translateY(4088px);">
   <div role="row" aria-rowindex="1" aria-selected="false">
   <div role="row" aria-rowindex="2" aria-selected="false">
   <div role="row" aria-rowindex="3" aria-selected="false">
   ...
   <div role="row" aria-rowindex="8" aria-selected="false">

当我向下滚动时

<div role="presentation" style="transform: translateY(4088px);">
   <div role="row" aria-rowindex="22" aria-selected="false">
   <div role="row" aria-rowindex="23" aria-selected="false">
   <div role="row" aria-rowindex="24" aria-selected="false">
   ...
   <div role="row" aria-rowindex="29" aria-selected="false">

我想从此标签中获取信息<div role="row" aria-rowindex="?" aria-selected="false">

现在,我正在使用这段代码。elem = driver.find_element(By.XPATH, f"//div[@aria-rowindex={num+1}]")

我想了一个想法,只是一点一点地向下滚动并获取所有信息,然后再次 scorll ...... 但是我想知道有没有更好的主意来解决这个问题?

网页抓取 网络 爬虫

评论


答: 暂无答案