rowmeans但在計算平均值時忽略某些值但na.rm=F-有解無憂

這是一個示例資料集：


data <- data.frame(x=c(4,3,4,4,99),
                  y=c(4,NA,3,2,4),
                  z = c(88,NA,4,4,5),
                  w = c(4,5,2,3,4))

我想為使用 rowMeans 的均值創建一個新列。我想保留 na.rm=F 因為如果它真的不適用，我不想將其包含在我的均值計算中。但是，如果它是 88/99，我希望 R 在計算平均值時忽略它并仍然使用剩余的有效值。到目前為止，我有以下內容。

data$mean <- rowMeans(subset(data, select = c(`x`,`y`,`z`,`w`)), na.rm = T)

但我不確定如何添加一個函式，它只會忽略計算中的 88 和 99。

這是我希望得到的

data <- data.frame(x=c(4,3,4,4,99),
                   y=c(4,NA,3,2,4),
                   z = c(88,NA,4,4,5),
                   w = c(4,5,2,3,4),
                   mean=c(4,NA,3.25,3.25,4.3))

任何幫助表示贊賞 - 謝謝！

uj5u.com熱心網友回復：

rowMeans盡管如此，使用with na.rm=TRUE，但在一個子集上并暫時replaceing88和99with NA。

s <- rowSums(is.na(data)) == 0  ## store row subset
v <- c("x", "y", "z", "w")  ## col subset to calc. mean
data$mean <- NA  ## ini column
m <- as.matrix(data[v])  ## we'll ned a matrix
data$mean[s] <- rowMeans(replace(m[s, v], m[s, v] %in% c(88, 99), NA), na.rm=TRUE)
data
#    x  y  z w     mean
# 1  4  4 88 4 4.000000
# 2  3 NA NA 5       NA
# 3  4  3  4 2 3.250000
# 4  4  2  4 3 3.250000
# 5 99  4  5 4 4.333333

或者只是使用apply但要慢得多。

f <- \(x) if (any(is.na(x))) NA else mean(x[!x %in% c(88, 99)])
cbind(data, mean=apply(data, 1, f))
#    x  y  z w     mean
# 1  4  4 88 4 4.000000
# 2  3 NA NA 5       NA
# 3  4  3  4 2 3.250000
# 4  4  2  4 3 3.250000
# 5 99  4  5 4 4.333333

從microbenchmark.

# Unit: milliseconds
#     expr       min        lq      mean    median        uq        max neval cld
#    apply 35.018162 35.941815 38.834333 36.394632 36.960161 212.469412   100   b
# rowMeans  1.097393  1.119396  1.493563  1.193787  1.226691   9.352118   100  a

uj5u.com熱心網友回復：

data <- data.frame(x=c(4,3,4,4,99),
                   y=c(4,NA,3,2,4),
                   z = c(88,NA,4,4,5),
                   w = c(4,5,2,3,4))

df$mean <- apply(data, 1, function(x) {
  idx <- which((x %in% c(88, 89)) == FALSE)
  mean(x[ idx ], na.rm = TRUE)
})

   x  y  z w  mean
1  4  4 88 4  4.00
2  3 NA NA 5  4.00
3  4  3  4 2  3.25
4  4  2  4 3  3.25
5 99  4  5 4 28.00

轉載請註明出處，本文鏈接：https://www.uj5u.com/qukuanlian/526992.html

標籤：r意思是数据操作

上一篇：R：基于具有列索引的向量將資料幀中的值重置為零

下一篇：通過將性別包含到演算法中來制作回圈函式