Webscraping html tables with variable length - 在构造数据帧时,如何确保我的数据最终位于正确的列中?
作者:Moritz 提问时间:6/20/2020
我(初级到中级 R 用户)正在尝试对柏林大量 (~12k) 建筑物的数据进行网络抓取。 这些信息可以在柏林遗产局的网页上找到(每栋建筑一个,所以 12k),看起来都是这样的(网站是德语的,我感兴趣的...
数据清理 问答列表
作者:Moritz 提问时间:6/20/2020
我(初级到中级 R 用户)正在尝试对柏林大量 (~12k) 建筑物的数据进行网络抓取。 这些信息可以在柏林遗产局的网页上找到(每栋建筑一个,所以 12k),看起来都是这样的(网站是德语的,我感兴趣的...
作者:knightcool 提问时间:8/3/2020
在熊猫身上注意到了一些非常奇怪的东西。我的数据帧(有 3 行和 3 列)如下所示: 当我尝试使用以下命令将 ID 和 Name(用下划线分隔)提取到它们自己的列时,它给了我一个错误: df[['I...
作者:ronzenith 提问时间:6/14/2021
我正在尝试使用简单的代码学习数据清理。 我的核心问题是:两个并排的方括号有什么用? 下面是一个例子。df df <- data.frame(x = c(1:3, NA, NA), y = c(6...
作者:at. 提问时间:5/2/2023
我想按列分组,并为每个唯一因素选择最常见的因数。例如:aba tibble(a = c(1,1,1,2,2,2), b = factor(c('cat', 'dog', 'cat', 'cat', ...
作者:wick 提问时间:8/4/2023
我正在尝试创建一个新列,以计算某人因工作而获得报酬的次数 - 无论是全部钱还是部分钱。因此,对于每一行,如果它在工作列中显示“是”或“部分”或“已付费”,那么我希望在新列中对此进行计数。 我的实际数...
作者:python_beginner 提问时间:8/9/2023
我正在导入的 CSV 文件有 566 行。例如,其中一列名为“安全评分”,有 53 个空单元格。我不想完全删除这些行,因为还有其他一些有用的列确实有数据。我希望MySQL工作台导入所有行,包括没有数据...
作者:Mostafa Bouzari 提问时间:9/6/2023
我有一个数据帧,我想知道,是否有人在列中提到了我正在寻找的公司。可能它应该通过正则表达式组来完成,但我不确定,目前我使用 .DocumentIdentifiercontains() 数据如下所示: ...
作者:Joe the Second 提问时间:10/7/2023
我有以下数据框: set.seed(3994) val <- round(runif(n=30, min = 5, max= 300), digits=0) cat <- rep(c("A", "B...
作者:Baqir Ali 提问时间:10/29/2023
我有一个列“状态和金额”的数据集,列中有 12 个空值,所以我编写了一个程序来填充空值。Amount 当我一个接一个地填充每个 null 值并每次保存它们时,列中都有值“Andhra Pradesh...
作者:Nerea 提问时间:11/15/2023
我有一个包含 16 个 ID 类别的数据集 (PRUEBAsummary_NO2_2019_ID)。我想将这 16 个类别与相应的地区代码 (21) 相匹配。我希望与ID对应的行在需要时重复,重要的是...