在 R 中获取读取 HTML 的行号

Get row number reading HTML in R

提问人:Lucas Mignone 提问时间:10/9/2019 最后编辑:Lucas Mignone 更新时间:10/9/2019 访问量:68

问:

我正在尝试阅读一个网页,其中包含超市的产品(每页十二个元素)和价格(常规和折扣,可以有三种不同的类型)。 为此,我使用了 html_nodes 和 html_text 等函数。 读取价格时,我必须使用 html_text,因为值的内容不在节点内部。 例如:

url<-"https://www.cotodigital3.com.ar/sitios/cdigi/browse/"

parsed_url<-read_html(url)

regular_price<-parsed_url %>%
        html_nodes('.atg_store_newPrice') %>%
        html_text(trim=TRUE)

我得到这样的东西(35 个元素,因为每个价格在页面中重复三次,除非一个产品有“忠诚度”折扣,在这种情况下只出现两次):

[1] "PRECIO CONTADO\n\t\t\t                  \n \n \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n \n\n\n\n\n \n \n\n\n\n\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n $219.00"

但是对于一种类型的折扣价格,我只得到一个(这取决于查询完成的时刻和页面)值:

discount_price<-parsed_url %>%
        html_nodes('.first_price_discount_container') %>%
        html_text(trim=TRUE)

[1] "25%\r\n\t\t\t\t\t\t\r\n\t\t\t\t\t\t\t\r\n\t\t\t\t\t\t\t\t\t\t\r \r \r \r \r\t\r \r \r \r \r \r \r\t\r\t\t\t\r\t\r\n\t\t\t\t\t\t\t\t\t\t$52.99"

所以,问题是,有一种方法可以知道html_text函数返回的文本行,以便控制哪个产品属于哪个产品,而折扣在html结构中并不经常出现?

谢谢

R HTML 解析

评论

0赞 Carl Boneri 10/9/2019
如果您发布parsed_url
0赞 Lucas Mignone 10/9/2019
嗨,@CarlBoneri,我已经根据您的要求添加了网址和parsed_url。谢谢!

答: 暂无答案