提问人:Lucas Mignone 提问时间:10/9/2019 最后编辑:Lucas Mignone 更新时间:10/9/2019 访问量:68
在 R 中获取读取 HTML 的行号
Get row number reading HTML in R
问:
我正在尝试阅读一个网页,其中包含超市的产品(每页十二个元素)和价格(常规和折扣,可以有三种不同的类型)。 为此,我使用了 html_nodes 和 html_text 等函数。 读取价格时,我必须使用 html_text,因为值的内容不在节点内部。 例如:
url<-"https://www.cotodigital3.com.ar/sitios/cdigi/browse/"
parsed_url<-read_html(url)
regular_price<-parsed_url %>%
html_nodes('.atg_store_newPrice') %>%
html_text(trim=TRUE)
我得到这样的东西(35 个元素,因为每个价格在页面中重复三次,除非一个产品有“忠诚度”折扣,在这种情况下只出现两次):
[1] "PRECIO CONTADO\n\t\t\t \n \n \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n \n\n\n\n\n \n \n\n\n\n\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n $219.00"
但是对于一种类型的折扣价格,我只得到一个(这取决于查询完成的时刻和页面)值:
discount_price<-parsed_url %>%
html_nodes('.first_price_discount_container') %>%
html_text(trim=TRUE)
[1] "25%\r\n\t\t\t\t\t\t\r\n\t\t\t\t\t\t\t\r\n\t\t\t\t\t\t\t\t\t\t\r \r \r \r \r\t\r \r \r \r \r \r \r\t\r\t\t\t\r\t\r\n\t\t\t\t\t\t\t\t\t\t$52.99"
所以,问题是,有一种方法可以知道html_text函数返回的文本行,以便控制哪个产品属于哪个产品,而折扣在html结构中并不经常出现?
谢谢
答: 暂无答案
评论
parsed_url