我有 2 個具有相同列名但行數不同的資料框。第一個資料框 (a) 看起來類似于:
a = data.frame("Site"=c(1,2,3,4,7,9,10,11,13,14),
"v1"=c(0,0,0,0,0,0,0,0,0,0),
"v2"=c(0,0,0,0,NA,NA,NA,0,0,0),
"v3"=c(0,0,0,NA,0,NA,0,0,0,0),
"v4"=c(0,0,0,0,0,0,0,0,NA,NA),
"v5"=c(0,0,0,0,0,NA,0,NA,0,0))
注意:站點 5、6、8 和 12 有意缺失。
第二個資料框 (b) 看起來像這樣:
b = data.frame("Site"=c(2,3,4,7,10,14),
"v1"=c(1,NA,2,1,NA,NA),
"v2"=c(1,1,NA,NA,NA,NA),
"v3"=c(NA,1,NA,NA,NA,1),
"v4"=c(1,NA,4,1,NA,NA),
"v5"=c(1,NA,2,1,1,3))
我想要實作的是:
desired = data.frame("Site"=c(1,2,3,4,7,9,10,11,13,14),
"v1"=c(0,1,0,2,1,0,0,0,0,0),
"v2"=c(0,1,1,0,NA,NA,NA,0,0,0),
"v3"=c(0,0,1,NA,0,NA,0,0,0,1),
"v4"=c(0,1,0,4,1,0,0,0,NA,NA),
"v5"=c(0,1,0,2,1,NA,1,NA,0,3))
在我將資料幀 b 中的資料“注入”(我確定有更好的術語)到資料幀 a 的地方,但是我想用零替換 b 中的任何 NA,并保持 a 中的 NA 原樣。
我發現并嘗試過這段代碼:
cols <- colnames(a)[colnames(a) %in% colnames(b)]
rows <- rownames(a)[rownames(a) %in% rownames(b)]
a[rows, cols] <- b[rows, cols]
但它帶來了 NA。我考慮先用零替換 NA,但即便如此,它也會洗掉我目前在資料幀 a 中想要保留的 NA。
也許 for 回圈或 tidyverse 中的某些東西是要走的路,但我什至不知道從哪里開始。任何幫助將非常感激!
uj5u.com熱心網友回復:
我建議你先更換每一個NA值b與0再利用inner_join的結果與相應的合并Site中值a。然后,您可以將 的非NA值替換a為其對應的值,b從而使NA值a保持不變。最后,我們將修改后的資料框a與其Site值不存在于 中的子集系結b。
library(dplyr)
a %>%
inner_join(b %>%
mutate(across(!Site, ~ replace(.x, is.na(.x), 0))),
by = "Site") %>%
mutate(across(ends_with(".x"), ~ ifelse(!is.na(.x), get(gsub("(.*\\.)x", "\\1y", cur_column())),
.x))) %>%
select(!ends_with("y")) %>%
rename_with(~ gsub("(.*)\\.x", "\\1", .), ends_with(".x")) %>%
bind_rows(a %>%
filter(!Site %in% unique(b$Site))) %>%
arrange(Site)
Site v1 v2 v3 v4 v5
1 1 0 0 0 0 0
2 2 1 1 0 1 1
3 3 0 1 1 0 0
4 4 2 0 NA 4 2
5 7 1 NA 0 1 1
6 9 0 NA NA 0 NA
7 10 0 NA 0 0 1
8 11 0 0 0 0 NA
9 13 0 0 0 NA 0
10 14 0 0 1 NA 3
我的好朋友Onyambu提出了一個精辟而簡潔的解決方案:
rbind(a, b) %>%
group_by(Site) %>%
summarise(across(everything(), ~
if(any(!is.na(.x))) max(.x, na.rm = TRUE) else NA))
uj5u.com熱心網友回復:
merge(b, a, by = 'Site', all = TRUE) %>%
split.default(sub('.x|.y', '', names(.))) %>%
map_df(~coalesce(!!!.x))
# A tibble: 10 x 6
Site v1 v2 v3 v4 v5
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 1 0 0 0 0 0
2 2 1 1 0 1 1
3 3 0 1 1 0 0
4 4 2 0 NA 4 2
5 7 1 NA 0 1 1
6 9 0 NA NA 0 NA
7 10 0 NA 0 0 1
8 11 0 0 0 0 NA
9 13 0 0 0 NA 0
10 14 0 0 1 NA 3
uj5u.com熱心網友回復:
i <- match(b$Site, a$Site)
a_nas <- is.na(a)
for (j in seq(2, ncol(a))) {
a[i, j] <- ifelse(is.na(b[[j]]), 0, b[[j]])
}
a[a_nas] <- NA
all.equal(desired, a)
# [1] TRUE
轉載請註明出處,本文鏈接:https://www.uj5u.com/net/403214.html
標籤:
下一篇:Rreshape()非常慢
