我有幾個具有大量缺失資料的變數,我試圖計算多列 Z 分數的平均值和標準差,但前提是它們有 >3 個感興趣的變數(Z 中的哪一個無關緊要只要有三個分數)。目的是能夠說出哪些受試者的平均 Z 分數與參考組平均 Z 分數相差一個或多個 SD。我的資料結構如下(但要大得多)
| 主題 | Zscore1 | Zscore2 | Zscore3 | Zscore4 | Zscore5 | 團體 |
|---|---|---|---|---|---|---|
| as4 | -2.4 | -1.2 | 不適用 | -2.3 | 1.6 | 急診室 |
| as1 | -2.6 | -1.4 | -0.7 | -1.4 | -1.4 | TL |
| as8 | -2.7 | 不適用 | -0.1 | 不適用 | -1.1 | TL |
| as10 | 不適用 | -1.7 | -0.9 | 2.3 | 1.7 | 急診室 |
所以我想撰寫如下代碼:
如果存在 3 個或更多 Z 分數 Z 分數的平均值和 SD 是多少
任何幫助,將不勝感激。
uj5u.com熱心網友回復:
你需要這樣的東西:
library(dplyr)
df %>%
mutate(not_na_count = rowSums(!is.na(select(., -c(Subject, Group))))) %>%
filter(not_na_count >3) %>%
rowwise() %>%
mutate(avg = mean(c_across(2:6), na.rm = TRUE),
sd = sd(c_across(2:6), na.rm = TRUE)
)
Subject Zscore1 Zscore2 Zscore3 Zscore4 Zscore5 Group not_na_count avg sd
<chr> <dbl> <dbl> <dbl> <dbl> <dbl> <chr> <dbl> <dbl> <dbl>
1 as4 -2.4 -1.2 NA -2.3 1.6 ER 4 -1.08 1.86
2 as1 -2.6 -1.4 -0.7 -1.4 -1.4 TL 5 -1.5 0.686
3 as10 NA -1.7 -0.9 2.3 1.7 ER 4 0.35 1.95
轉載請註明出處,本文鏈接:https://www.uj5u.com/qukuanlian/524542.html
標籤:r统计数据意思是
