如何从文件夹中检索http文件列表并在R中下载

How to retrieve http file list from folder and download in R

提问人:user8229029 提问时间:6/17/2023 更新时间:6/17/2023 访问量:35

问:

我想从 http 网站 (data.mesonet.unl) 获取可下载文件的列表,然后下载它们。我该怎么做?我尝试使用以下代码。但它只是返回一堆嵌入了实际 href 链接的 html。一定有一些东西可以很容易地自动完成这项工作 - 我只是找不到它。以下是我的基本代码,我尝试过的所有变体基本上都做同样的事情,没有真正的结果。提前致谢。

library(RCurl)
url <- 'https://data.mesonet.unl.edu/data/alda_5nw/'
files <- getURLContent(url)
r httr rcurl

评论

1赞 r2evans 6/17/2023
您需要从该列表中抓取文件夹和文件信息。我建议用它来解析你需要的部分。(请注意,虽然它看起来像一个简单的文件列表,但实际格式因服务器本身而异,例如 apache-vs-nginx-vs-IIS 等,以及系统管理员设置的选项。我不知道 R 中有什么函数或包可以自动为您解析所有这些。不过,我不认为代码会那么困难。rvestrvest
2赞 r2evans 6/17/2023
例如,返回 a 这是迭代目录以手动“递归”目录的良好开端。library(rvest); sess <- session("https://data.mesonet.unl.edu/data/alda_5nw"); html_table(sess)[[1]]data.frame
0赞 I_O 6/17/2023
{Rcrawler} 可能值得一试:github.com/salimk/Rcrawler#how-to-use-rcrawler

答: 暂无答案