无法解析 r 中难以理解的 html 文件 [已关闭]

Unable to parse a difficult to understand html file in r [closed]

提问人:Alphaneo 提问时间:9/25/2022 最后编辑:Alphaneo 更新时间:9/25/2022 访问量:65

问:


想改进这个问题吗?通过编辑这篇文章添加详细信息并澄清问题。

去年关闭。

这篇文章是去年编辑并提交审查的,但未能重新打开该帖子:

原始关闭原因未解决

我已经有一段时间没有访问 stackoverflow 了, 我在解析 html 文件时遇到了问题。 我正在尝试解析以下链接

edata <- read_html("https://mmiconnect.in/app/ep-2022/registration/show-catalogue")

但是我无法使用 html_nodes 解析 html 文件,我尝试了所有可能的类名,但没有结果。

我正在尝试获得参加世博会的所有公司名称,我尝试了各种“类”,

html_nodes('.fuse-widget-front .mat-elevation-z4 .m-2 .bg-white')

但对于任何结果。

The company names that I am trying to download

r 解析 rvest html-nodes

评论

1赞 QHarr 9/25/2022
发生了什么事情?到底想得到什么?

答:

1赞 Emmanuel Hamel 9/25/2022 #1

我已经能够使用以下代码解析html:

library(RSelenium)
library(rvest)
url <- "https://mmiconnect.in/app/ep-2022/registration/show-catalogue"
shell('docker run -d -p 4445:4444 selenium/standalone-firefox')
remDr <- remoteDriver(remoteServerAddr = "localhost", port = 4445L, browserName = "firefox")
remDr$open()
remDr$navigate(url)
htmltxt <- remDr$getPageSource()[[1]]
read_html(htmltxt) %>% html_node(xpath = '//*/img') %>% html_attr('src')

[1] "https://mmiconnectstorage.azureedge.net/global-manual-upload/ep-2022-visitor-reg-banner.jpg"