在R中只保留每組的第二個觀察值-有解無憂

我有一個按 id 變數（“城市”）排序的資料框，我想保留對那些具有多個觀察值的城市的第二個觀察值。

例如，這是一個示例資料集：

city <- c(1,1,2,3,3,4,5,6,7,7,8)
value <- c(3,5,7,8,2,5,4,2,3,2,3)
mydata <- data.frame(city, value)

然后我們有：

   city value
1     1     3
2     1     5
3     2     7
4     3     8
5     3     2
6     4     5
7     5     4
8     6     2
9     7     3
10    7     2
11    8     3

理想的結果是：

   city value
2     1     5
3     2     7
5     3     2
6     4     5
7     5     4
8     6     2
10    7     2
11    8     3

任何幫助表示贊賞！

uj5u.com熱心網友回復：

dplyr

library(dplyr)
mydata %>%
  group_by(city) %>%
  filter(n() == 1L | row_number() == 2L) %>%
  ungroup()
# # A tibble: 8 x 2
#    city value
#   <dbl> <dbl>
# 1     1     5
# 2     2     7
# 3     3     2
# 4     4     5
# 5     5     4
# 6     6     2
# 7     7     2
# 8     8     3

或略有不同

mydata %>%
  group_by(city) %>%
  slice(min(n(), 2)) %>%
  ungroup()

基數R

ind <- ave(rep(TRUE, nrow(mydata)), mydata$city,
           FUN = function(z) length(z) == 1L | seq_along(z) == 2L)
ind
#  [1] FALSE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE
mydata[ind,]
#    city value
# 2     1     5
# 3     2     7
# 5     3     2
# 6     4     5
# 7     5     4
# 8     6     2
# 10    7     2
# 11    8     3

資料表

由于您提到“更大”，您可能會data.table在某個時候考慮它的速度和參考語意。（而且這段代碼更簡潔也沒有壞處:-)

library(data.table)
DT <- as.data.table(mydata) # normally one might use setDT(mydata) instead ...
DT[, .SD[min(.N, 2),], by = city]
#     city value
#    <num> <num>
# 1:     1     5
# 2:     2     7
# 3:     3     2
# 4:     4     5
# 5:     5     4
# 6:     6     2
# 7:     7     2
# 8:     8     3

uj5u.com熱心網友回復：

這是用于pmin()根據value-values向量的長度選擇 2 或 1 的邏輯：

aggregate( value ~ city, mydata, function(x) x[ pmin(2, length(x))] )
  city value
1    1     5
2    2     7
3    3     2
4    4     5
5    5     4
6    6     2
7    7     2
8    8     3

聚合函式value基于city-values提供分割向量。

uj5u.com熱心網友回復：

你可以試試

library(dplyr)

mydata %>%
  group_by(city) %>%
  filter(case_when(n()> 1 ~ row_number() == 2,
                   TRUE ~ row_number()== 1)) 

  
   city value
  <dbl> <dbl>
1     1     5
2     2     7
3     3     2
4     4     5
5     5     4
6     6     2
7     7     2
8     8     3

uj5u.com熱心網友回復：

另一種dplyr解決方案：

mydata %>% group_by(city) %>%    
  summarize(value=value[pmin(2, n())])

或者：

mydata %>% group_by(city) %>%
  summarize(value=ifelse(n() >= 2, value[2], value[1]))

兩個輸出：

   city value
  <dbl> <dbl>
1     1     5
2     2     7
3     3     2
4     4     5
5     5     4
6     6     2
7     7     2
8     8     3

uj5u.com熱心網友回復：

如果基礎 R 沒問題，試試這個：

編輯（因為性能似乎真的很重要）：

if在某些情況下，作為函式使用，應該可以提供 100 倍的加速。

aggregate( value ~ city, mydata, function(x) `if`(!is.na(x[2]),x[2],x[1]) )

  city value
1    1     5
2    2     7
3    3     2
4    4     5
5    5     4
6    6     2
7    7     2
8    8     3

基準

這是一些基準測驗，因為我很好奇。我收集了所有解決方案并讓它們運行microbenchmark。

底線'if'(cond,T,F)是最快的（ifelse比最慢的快22.3%，比最慢的快 17 倍），其次是ifelse和aggregate(pmin)。請記住，該data.table解決方案僅在一個內核上運行。因此，該包中的所有加速都來自并行化。沒有真正令人震驚，但仍然很有趣。

library(microbenchmark)

lengths( mydata )
 city value 
20000 20000

c( class(mydata$value), class(mydata$value) )
[1] "integer" "integer"

microbenchmark("aggr_if_function" = { res <- aggregate( value ~ city, mydata, function(x) `if`(!is.na(x[2]),x[2],x[1]) )},
"aggr_ifelse" = { res <- aggregate( value ~ city, mydata, function(x) ifelse(!is.na(x[2]),x[2],x[1]) ) },
"dplyr_filter" = { res <- mydata %>% group_by(city) %>% filter(n() == 1L | row_number() == 2L) %>% ungroup() },
"dplyr_slice" = { res <- mydata %>% group_by(city) %>% slice(min(n(), 2)) %>% ungroup() },
"data.table_single_core" = { res <- DT[, .SD[min(.N, 2),], by = city] },
"aggr_pmin" = { res <- aggregate( value ~ city, mydata, function(x) x[ pmin(2, length(x))] ) },
"dplyr_filter_case_when" = { res <- mydata %>% group_by(city) %>% filter(case_when(n()> 1 ~ row_number() == 2, TRUE ~ row_number()== 1)) },
"group_split_purrr" = { res <- group_split(mydata, city) %>% map_if(~nrow(.) > 1, ~.[2, ]) %>% bind_rows() }, times=50)

Unit: milliseconds
                   expr       min        lq      mean    median        uq
       aggr_if_function  175.5104  179.3273  184.5157  182.1778  186.8963
            aggr_ifelse  214.5846  220.7074  229.2062  228.0688  234.1087
           dplyr_filter  585.5275  607.7011  643.6320  632.0794  660.8184
            dplyr_slice  713.4047  762.9887  792.7491  780.8475  803.7191
 data.table_single_core 2080.3869 2164.3829 2240.8578 2229.5310 2298.9002
              aggr_pmin  321.5265  330.5491  343.2752  341.7866  352.2880
 dplyr_filter_case_when 3171.4859 3337.1669 3492.6915 3500.7783 3608.1809
      group_split_purrr 1466.4527 1543.2597 1590.9994 1588.0186 1630.5590
       max neval     cld
  212.6006    50 a      
  253.0433    50 a      
 1066.6018    50   c    
 1304.4045    50    d   
 2702.4201    50      f 
  457.3435    50  b     
 4195.0774    50       g
 1786.5310    50     e

uj5u.com熱心網友回復：

結合group_split和map_if：

library(tidyverse)

city <- c(1,1,2,3,3,4,5,6,7,7,8)
value <- c(3,5,7,8,2,5,4,2,3,2,3)
value2 <- c(3,5,7,8,2,5,4,2,3,2,3)
mydata <- data.frame(city, value)

group_split(mydata, city) %>% 
    map_if(~nrow(.) > 1, ~.[2, ]) %>% bind_rows()
#> # A tibble: 8 × 2
#>    city value
#>   <dbl> <dbl>
#> 1     1     5
#> 2     2     7
#> 3     3     2
#> 4     4     5
#> 5     5     4
#> 6     6     2
#> 7     7     2
#> 8     8     3

^{由reprex 包(v2.0.1)于 2021 年 11 月 30 日創建}

uj5u.com熱心網友回復：

If-then-else 是機器代碼和匯編的條件跳轉對可讀性的巨大改進。

想象一下你想要這樣做：

如果（謂詞（））{
富（）；
} 別的 {
酒吧（）;
如果沒有 if-then-else 控制結構，則需要使用標簽和條件跳轉：
謂詞（）;
jump_if_false(ELSE);
富（）；
別的：
酒吧（）; https://homeofapk.com/

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/371348.html

標籤：r 数据框 dplyr

上一篇：如何在r中追加資料之前驗證重復

下一篇：如何通過對多個變數進行分組來創建新的Pandas資料框？