提问人:Alphaneo 提问时间:9/25/2022 最后编辑:Alphaneo 更新时间:9/25/2022 访问量:65
无法解析 r 中难以理解的 html 文件 [已关闭]
Unable to parse a difficult to understand html file in r [closed]
问:
我已经有一段时间没有访问 stackoverflow 了, 我在解析 html 文件时遇到了问题。 我正在尝试解析以下链接
edata <- read_html("https://mmiconnect.in/app/ep-2022/registration/show-catalogue")
但是我无法使用 html_nodes 解析 html 文件,我尝试了所有可能的类名,但没有结果。
我正在尝试获得参加世博会的所有公司名称,我尝试了各种“类”,
html_nodes('.fuse-widget-front .mat-elevation-z4 .m-2 .bg-white')
但对于任何结果。
答:
1赞
Emmanuel Hamel
9/25/2022
#1
我已经能够使用以下代码解析html:
library(RSelenium)
library(rvest)
url <- "https://mmiconnect.in/app/ep-2022/registration/show-catalogue"
shell('docker run -d -p 4445:4444 selenium/standalone-firefox')
remDr <- remoteDriver(remoteServerAddr = "localhost", port = 4445L, browserName = "firefox")
remDr$open()
remDr$navigate(url)
htmltxt <- remDr$getPageSource()[[1]]
read_html(htmltxt) %>% html_node(xpath = '//*/img') %>% html_attr('src')
[1] "https://mmiconnectstorage.azureedge.net/global-manual-upload/ep-2022-visitor-reg-banner.jpg"
评论