将两个 DataFrame 逐个元素粘贴在一起-解网

问：

我需要逐个元素粘贴两个数据帧的内容，以便输入到另一个程序。我有一个均值数据框和一个均值标准误差数据框。

我尝试使用 R paste（）函数，但它似乎无法处理数据帧。当使用向量时，它似乎将第一个向量的所有元素连接成一个字符串，将第二个向量的所有元素连接成一个单独的字符串。相反，我需要将两个数据帧中的每个倒数元素连接在一起。

关于如何处理这个问题有什么建议吗？我包含了虚拟输入数据（datMean 和 datSE）和我想要的输出（datNew）。我的真实数据框大小约为 10 行 x 150 列。

# means and SEM
datMean <- data.frame(a=rnorm(10, 3), b=rnorm(10, 3), d=rnorm(10, 3))
datSE <- data.frame(a=rnorm(10, 3)/100, b=rnorm(10, 3)/100, d=rnorm(10, 3)/100)

# what the output should look like
# i've chosen some arbitrary values here, and show only the first row. 
datNew <- data.frame(a="2.889-2.926", b="1.342-1.389", d="2.569-2.576")

这个想法是让 datNew 中的每个元素都是一个由 'mean - se' 和 'mean + se' 组成的范围，用破折号 '-' 分隔。paste（）函数可以对一个元素执行此操作，如何在整个数据帧上执行此操作？

paste(datMean[1,1] - datSE[1,1], datMean[1,1] + datSE[1,1], sep="-")

编辑1：看着一些答案，我意识到我在问题中遗漏了一些重要的信息。原始数据框的每一行都有名称，我需要用这些名称重新构建最终数据框。例如：

rownames(datMean) <- LETTERS[1:10]
rownames(datSE) <- LETTERS[1:10]

我需要 datNew 最终再次拥有这 10 个行名。对于某些使用 melt（）的解决方案，这可能是有问题的。

R 数据帧

答：

2赞 mdsumner 6/20/2011 #1

您可以一次对每一行执行此操作，但您要应用于两个 data.frame 之间的成对列。由于您每次都要执行特定的粘贴作业，因此请定义函数：

pfun <- function(x, y) paste(x - y, x + y, sep = "-")

然后使用以下函数构造新的 Data.Frame：

 datNew <- data.frame(a = pfun(datMean$a, datSE$a), b = pfun(datMean$b, datSE$b), d = pfun(datMean$d, datSE$d))

会有更简单的方法来应用它，但也许这有助于你更好地理解。您可以将整个列传递到粘贴，但不能传递整个 data.frames。

使用循环匹配结果中的所有列，而无需单独指定它们。

首先创建一个列表来存储所有列，我们将转换为具有正确列名的 data.frame。

datNew <- vector("list", ncol(datMean))

命名确实假定列号、名称和顺序在两个输入 data.frame 之间完全匹配。

names(datNew) <- names(datMean)

for (i in 1:ncol(datMean)) {
    datNew[[i]] <- pfun(datMean[[i]], datSE[[i]])
}

转换为 data.frame：

datNew <- as.data.frame(datNew)

0赞 Steve 6/20/2011

这真的很有效，谢谢。对于具有 150+ 列的数据框，这将是费力的。我想知道是否有办法进一步自动化它......

3赞 Roman Luštrik 6/20/2011 #2

这是我如何理解你的问题。我使用将均值和 SE 的数据从多列融化到一列。reshape2::melt

library(reshape2)
datMean <- melt(datMean)$value
datSE <- melt(datSE)$value
dat <- cbind(datMean, datSE)

apply(X = dat, MARGIN = 1, FUN = function(x) {
            paste(x[1] - x[2], x[1] + x[2], sep = " - ")
        })

结果

 [1] "3.03886802467251 - 3.08551547263516" 
 [2] "3.01803172559258 - 3.05247871975711" 
 [3] "3.4609230722069 - 3.56097173966387"  
 [4] "1.35368243309618 - 1.45548512578821" 
 [5] "2.39936853846605 - 2.47570756724791" 
 [6] "3.21849170272184 - 3.29653660329785"

编辑

此解决方案尊重您的原始数据维度。我所做的是制作一个 3D 数组，并在保持三维（）恒定的情况下一次处理每个单元格。[x,y, 1:2]

dat <- array(c(datMean, datSE), dim = c(10, 3, 2))

datNEW <- matrix(rep(NA, nrow(dat)*ncol(dat)), ncol = ncol(dat))

for (column in seq(ncol(dat))) {
    cls <- rep(NA, nrow(dat))
    for (rows in seq(nrow(dat))) {
        tmp <- dat[rows, column, 1:2]
        cls[rows] <- paste(tmp[1] - tmp[2], tmp[1] + tmp[2], sep = " - ")
    }
    datNEW[, column] <- cls
}

0赞 Steve 6/20/2011

这效果很好，但我忘了提到我需要 datNew 具有与其他数据帧相同的结构（相同的行名和列名 - 请参阅我的 EDIT1）。用熔化和铸造似乎很难做到这一点。

0赞 Roman Luštrik 6/20/2011

确实，@Steve。请参阅我的编辑，该编辑将在几秒钟后进行。

0赞 Roman Luštrik 6/20/2011

...此外，您可以拆分我的第一个解决方案，以便它适合您的维度。

0赞 Steve 6/20/2011

现在这似乎有效，但我接受 Sacha 的答案，因为它看起来更简单并且需要更少的代码。谢谢你的帮助。

0赞 Roman Luštrik 6/20/2011

我刚刚添加了另一个解决方案来展示 3D 阵列的甜蜜。我希望有人能告诉我如何通过保持一个维度不变来应用，但你不能总是吃蛋糕。:)

8赞 Sacha Epskamp 6/20/2011 #3

下面是一种无需手动指定每列即可执行此操作的方法。首先，我们制作数据并使用包将它们放入数组中，四舍五入到 3，因为这样看起来更好：abind

datMean <- data.frame(a=rnorm(10, 3), b=rnorm(10, 3), d=rnorm(10, 3))
datSE <- data.frame(a=rnorm(10, 3)/100, b=rnorm(10, 3)/100, d=rnorm(10, 3)/100)

library(abind)

datArray <- round(abind(datMean,datSE,along=3),3)

然后我们可以将该函数应用于该数组的每个元素和列：paste

apply(datArray,1:2,function(x)paste(x[1]-x[2],"-",x[1]+x[2]))

      a               b               d              
 [1,] "3.537 - 3.581" "3.358 - 3.436" "3.282 - 3.312"
 [2,] "2.452 - 2.516" "1.372 - 1.44"  "3.041 - 3.127"
 [3,] "3.017 - 3.101" "3.14 - 3.228"  "5.238 - 5.258"
 [4,] "3.397 - 3.451" "2.783 - 2.839" "3.381 - 3.405"
 [5,] "1.918 - 1.988" "2.978 - 3.02"  "3.44 - 3.504" 
 [6,] "4.01 - 4.078"  "3.014 - 3.068" "1.914 - 1.954"
 [7,] "3.475 - 3.517" "2.117 - 2.159" "1.871 - 1.929"
 [8,] "2.551 - 2.619" "3.907 - 3.975" "1.588 - 1.614"
 [9,] "1.707 - 1.765" "2.63 - 2.678"  "1.316 - 1.348"
[10,] "4.051 - 4.103" "3.532 - 3.628" "3.235 - 3.287"

0赞 Steve 6/20/2011

多谢！这效果非常好，并且能够保留行名（请参阅我的编辑）。一个问题：有没有办法省略破折号前后的空格？

0赞 Gigi 1/18/2019

好主意！

14赞 Aaron left Stack Overflow 6/21/2011 #4

如果先转换为矩阵，则完全无需应用或循环即可完成。

MdatMean <- as.matrix(datMean)
MdatSE <- as.matrix(datSE)
matrix( paste(MdatMean - MdatSE, MdatMean + MdatSE, sep="-"), 
        nrow=nrow(MdatMean), dimnames=dimnames(MdatMean) )

您也可以考虑更好的格式。formatC

lo <- formatC(MdatMean - MdatSE, format="f", digits=3)
hi <- formatC(MdatMean + MdatSE, format="f", digits=3)
matrix( paste(lo, hi, sep="-"), 
        nrow=nrow(MdatMean), dimnames=dimnames(MdatMean) )

如果你想要最后，只需将最后一行括起来。data.frameas.data.frame

0赞 Steve 6/21/2011

非常感谢 - 我决定接受这是最好的答案，因为它不依赖于外部包，并且比替代方案更快，因为它不依赖于应用或循环。+ 1 表示 formatC（），我以前似乎没有这样做过，而且格式要好得多。

0赞 zx8754 10/6/2022 #5

使用 mapply 粘贴和 cbind 保留行名：

x <- cbind(
  datMean[, 0],
  mapply(paste, round(datMean - datSE, 3), round(datMean + datSE, 3), sep = " - "))

x
#               a             b             d
# A 3.268 - 3.321 5.226 - 5.308   2.3 - 2.358
# B 3.795 - 3.874 1.772 - 1.833 2.265 - 2.335
# C 1.305 - 1.346 1.238 - 1.291 2.812 - 2.874
# D 1.957 - 2.041 3.016 - 3.057 2.402 - 2.473
# E  4.73 - 4.786 2.909 - 2.963 2.245 - 2.297
# F 3.511 - 3.554 3.547 - 3.603 2.316 - 2.374
# G 3.601 - 3.689 3.073 - 3.144 3.145 - 3.215
# H 2.056 - 2.118  2.597 - 2.69  2.58 - 2.627
# I 1.802 - 1.835 2.794 - 2.895   2.452 - 2.5
# J 2.399 - 2.461 1.807 - 1.844 3.199 - 3.254

class(x)
# [1] "data.frame"
identical(rownames(datMean), rownames(x))
# [1] TRUE

上一个：在 R 中按两列对数据帧进行排序

下一个：使用 R 的非零原假设的相关性显著性

将两个 DataFrame 逐个元素粘贴在一起

Paste together two dataframes element by element

评论

评论

评论

评论

评论