在 R 中获取读取 HTML 的行号-解网

问：

我正在尝试阅读一个网页，其中包含超市的产品（每页十二个元素）和价格（常规和折扣，可以有三种不同的类型）。为此，我使用了 html_nodes 和 html_text 等函数。读取价格时，我必须使用 html_text，因为值的内容不在节点内部。例如：

url<-"https://www.cotodigital3.com.ar/sitios/cdigi/browse/"

parsed_url<-read_html(url)

regular_price<-parsed_url %>%
        html_nodes('.atg_store_newPrice') %>%
        html_text(trim=TRUE)

我得到这样的东西（35 个元素，因为每个价格在页面中重复三次，除非一个产品有“忠诚度”折扣，在这种情况下只出现两次）：

[1] "PRECIO CONTADO\n\t\t\t                  \n \n \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n \n\n\n\n\n \n \n\n\n\n\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n $219.00"

但是对于一种类型的折扣价格，我只得到一个（这取决于查询完成的时刻和页面）值：

discount_price<-parsed_url %>%
        html_nodes('.first_price_discount_container') %>%
        html_text(trim=TRUE)

[1] "25%\r\n\t\t\t\t\t\t\r\n\t\t\t\t\t\t\t\r\n\t\t\t\t\t\t\t\t\t\t\r \r \r \r \r\t\r \r \r \r \r \r \r\t\r\t\t\t\r\t\r\n\t\t\t\t\t\t\t\t\t\t$52.99"

所以，问题是，有一种方法可以知道html_text函数返回的文本行，以便控制哪个产品属于哪个产品，而折扣在html结构中并不经常出现？

谢谢

R HTML 解析

在 R 中获取读取 HTML 的行号

Get row number reading HTML in R

评论