R函式從資料幀中提取前n個分數并使用```apply`或dplyr```rowwise``找到它們的平均值-有解無憂

資料框看起來像這樣

df = data.frame(name = c("A","B","C"),
               exam1 = c(2,6,4),
               exam2 = c(3,5,6),
               exam3 = c(5,3,3),
               exam4 = c(1,NA,5))

我想提取每個“名稱”的前 3 名考試成績，并使用apply()或 dplyr rowwise()函式找到它們的平均值。

uj5u.com熱心網友回復：

使用apply,MARGIN = 1回圈遍歷數字列上的行sort，獲取head/tail依賴decreasing = TRUE/FALSE并回傳meaninbase R

apply(df[-1], 1, FUN = function(x) mean(head(sort(x, decreasing = TRUE), 3)))
[1] 3.333333 4.666667 5.000000

或與 dplyr/rowwise

library(dplyr)
df %>%
  rowwise %>%
  mutate(Mean = mean(head(sort(c_across(where(is.numeric)), 
       decreasing = TRUE), 3))) %>% 
  ungroup
# A tibble: 3 × 6
  name  exam1 exam2 exam3 exam4  Mean
  <chr> <dbl> <dbl> <dbl> <dbl> <dbl>
1 A         2     3     5     1  3.33
2 B         6     5     3    NA  4.67
3 C         4     6     3     5  5

uj5u.com熱心網友回復：

這是一種使用旋轉和使用的替代方法top_n：這將只回傳前 3 個：

library(dplyr)
library(tidyr)
df %>% 
  pivot_longer(
    -name,
    names_to = "exam",
    values_to = "value"
  ) %>% 
  group_by(name) %>% 
  top_n(3, value) %>% 
  mutate(mean = mean(value)) %>% 
  pivot_wider(
    names_from = exam, 
    values_from = value
  )

  name   mean exam1 exam2 exam3 exam4
  <chr> <dbl> <dbl> <dbl> <dbl> <dbl>
1 A      3.33     2     3     5    NA
2 B      4.67     6     5     3    NA
3 C      5        4     6    NA     5

或者：

library(tidyr)
df %>% 
  pivot_longer(
    -name,
    names_to = "exam",
    values_to = "value"
  ) %>% 
  group_by(name) %>% 
  top_n(3, value) %>% 
  summarise(mean = mean(value))

 name   mean
  <chr> <dbl>
1 A      3.33
2 B      4.67
3 C      5

uj5u.com熱心網友回復：

使用purrr::pmap_dfr：

library(tidyverse)

df = data.frame(name = c("A","B","C"),
                exam1 = c(2,6,4),
                exam2 = c(3,5,6),
                exam3 = c(5,3,3),
                exam4 = c(1,NA,5))

df %>% 
  pmap_dfr(~ list(means = mean(sort(c(..2,..3,..4,..5), decreasing=T)[1:3]))) %>%
  bind_cols(df,.)

#>   name exam1 exam2 exam3 exam4    means
#> 1    A     2     3     5     1 3.333333
#> 2    B     6     5     3    NA 4.666667
#> 3    C     4     6     3     5 5.000000

另一種可能的解決方案，基于tidyr::pivot_longer和不使用rowwise：

library(tidyverse)

df = data.frame(name = c("A","B","C"),
                exam1 = c(2,6,4),
                exam2 = c(3,5,6),
                exam3 = c(5,3,3),
                exam4 = c(1,NA,5))

df %>% 
  pivot_longer(cols = 2:5, names_to = "names") %>% 
  group_by(name) %>% 
  slice_max(value, n=3) %>% 
  summarise(mean = mean(value)) %>% 
  inner_join(df)

#> Joining, by = "name"
#> # A tibble: 3 × 6
#>   name   mean exam1 exam2 exam3 exam4
#>   <chr> <dbl> <dbl> <dbl> <dbl> <dbl>
#> 1 A      3.33     2     3     5     1
#> 2 B      4.67     6     5     3    NA
#> 3 C      5        4     6     3     5

uj5u.com熱心網友回復：

我回到這個問題并嘗試使用“df”的基本 dplyr 操作，這也有效，就像早期帖子中的一些真正有用的解決方案一樣。

df_long <- df %>% 
  pivot_longer(cols = -name,
               names_to = "exam",
               values_to = "score")
df_long %>%
group_by(name) %>% 
  arrange(desc(score)) %>% 
  slice(1:3) %>% 
  summarise(mean_score = mean(score))

@Paul Smith 添加的好主意 inner_join(df)

轉載請註明出處，本文鏈接：https://www.uj5u.com/net/412434.html

標籤：

上一篇：Python：Pandas資料框和for回圈-回圈體之外的單獨行變數

下一篇：每個時間間隔的平均值