使用通用日期合并2個資料框，加上之前的2行和之后的n-1行-有解無憂

所以我需要合并 2 個資料框：第一個資料框包含 YYYY-mm-dd 格式的日期和事件長度：

datetime   length
2003-06-03      1
2003-06-07      1
2003-06-13      1
2003-06-17      3
2003-06-28      5
2003-07-10      1
2003-07-23      1
...

第二個資料框包含相同格式的日期和出院資料：

  datetime      q
2003-05-29   36.2
2003-05-30   34.6
2003-05-31   33.1
2003-06-01   30.7
2003-06-02   30.0
2003-06-03  153.0
2003-06-04   69.0
...

第二個資料框要大得多。我只想將第二個資料框的以下行合并/加入到第一個：

與第一幀具有相同日期的所有行（我知道這可以通過left_join(df1,df2, by = c("datetime"))
該行前兩行
該行之后的 n-1 行，其中 n = 第一個資料幀中行的“長度”值。

我也想識別屬于同一事件的行。理想情況下，我會有以下輸出：（注意 2003-06-17 的事件）

EventDatesNancy length q       event#
2003-06-03      1      153.0   1
2003-06-07      1      120.0   2
2003-06-13      1      45.3    3
2003-06-15      na     110.0   4
2003-06-16      na     53.1    4
2003-06-17      3      78.0    4
2003-06-18      na     167.0   4
2003-06-19      na     145.0   4
...

我希望這能說明我想要做什么。

uj5u.com熱心網友回復：

這可能是使用tidyverseand的一種方法fuzzyjoin。

首先，event在您的第一個 data.frame 中指明數字。添加兩列以指示開始日期和結束日期（開始日期為日期前 2 天，結束日期為日期length后 - 1 天）。

然后，您可以使用fuzzy_inner_join從第二個 data.frame 中獲取選定的行。在這里，您需要datetime在第一個 data.frame 的開始日期之后和結束日期之前包含第二個 data.frame 中的位置。

library(tidyverse)
library(fuzzyjoin)

df1$event <- seq_along(1:nrow(df1))
df1$start_date <- df1$datetime - 2
df1$end_date <- df1$datetime   df1$length - 1

fuzzy_inner_join(
  df1,
  df2,
  by = c("start_date" = "datetime", "end_date" = "datetime"),
  match_fun = c(`<=`, `>=`)
) %>%
  select(datetime.y, length, q, event)

我用一些虛構的資料對此進行了嘗試：

R> df1
     datetime length
1  2003-06-03      1
2  2003-06-12      1
3  2003-06-21      1
4  2003-06-30      3
5  2003-07-09      5
6  2003-07-18      1
7  2003-07-27      1
8  2003-08-05      2
9  2003-08-14      1
10 2003-08-23      1
11 2003-09-01      3

R> df2
     datetime  q
1  2003-06-03 44
2  2003-06-04 52
3  2003-06-05 34
4  2003-06-06 20
5  2003-06-07 57
6  2003-06-08 67
7  2003-06-09 63
8  2003-06-10 51
9  2003-06-11 56
10 2003-06-12 37
11 2003-06-13 16
12 2003-06-14 54
13 2003-06-15 46
14 2003-06-16  6
15 2003-06-17 32
16 2003-06-18 91
17 2003-06-19 61
18 2003-06-20 42
19 2003-06-21 28
20 2003-06-22 98
21 2003-06-23 77
22 2003-06-24 81
23 2003-06-25 13
24 2003-06-26 15
25 2003-06-27 73
26 2003-06-28 38
27 2003-06-29 27
28 2003-06-30 49
29 2003-07-01 10
30 2003-07-02 89
31 2003-07-03  9
32 2003-07-04 80
33 2003-07-05 68
34 2003-07-06 26
35 2003-07-07 31
36 2003-07-08 29
37 2003-07-09 84
38 2003-07-10 60
39 2003-07-11 19
40 2003-07-12 97
41 2003-07-13 35
42 2003-07-14 47
43 2003-07-15 70

這將給出以下輸出：

   datetime.y length  q event
1  2003-06-03      1 44     1
2  2003-06-10      1 51     2
3  2003-06-11      1 56     2
4  2003-06-12      1 37     2
5  2003-06-19      1 61     3
6  2003-06-20      1 42     3
7  2003-06-21      1 28     3
8  2003-06-28      3 38     4
9  2003-06-29      3 27     4
10 2003-06-30      3 49     4
11 2003-07-01      3 10     4
12 2003-07-02      3 89     4
13 2003-07-07      5 31     5
14 2003-07-08      5 29     5
15 2003-07-09      5 84     5
16 2003-07-10      5 60     5
17 2003-07-11      5 19     5
18 2003-07-12      5 97     5
19 2003-07-13      5 35     5

如果所需的輸出與上述不同，請告訴我應該有什么不同，以便我進行更正。

資料

df1 <- structure(list(datetime = structure(c(12206, 12215, 12224, 12233, 
12242, 12251, 12260, 12269, 12278, 12287, 12296), class = "Date"), 
    length = c(1, 1, 1, 3, 5, 1, 1, 2, 1, 1, 3), event = 1:11, 
    start_date = structure(c(12204, 12213, 12222, 12231, 12240, 
    12249, 12258, 12267, 12276, 12285, 12294), class = "Date"), 
    end_date = structure(c(12206, 12215, 12224, 12235, 12246, 
    12251, 12260, 12270, 12278, 12287, 12298), class = "Date")), row.names = c(NA, 
-11L), class = "data.frame")

df2 <- structure(list(datetime = structure(c(12206, 12207, 12208, 12209, 
12210, 12211, 12212, 12213, 12214, 12215, 12216, 12217, 12218, 
12219, 12220, 12221, 12222, 12223, 12224, 12225, 12226, 12227, 
12228, 12229, 12230, 12231, 12232, 12233, 12234, 12235, 12236, 
12237, 12238, 12239, 12240, 12241, 12242, 12243, 12244, 12245, 
12246, 12247, 12248), class = "Date"), q = c(44L, 52L, 34L, 20L, 
57L, 67L, 63L, 51L, 56L, 37L, 16L, 54L, 46L, 6L, 32L, 91L, 61L, 
42L, 28L, 98L, 77L, 81L, 13L, 15L, 73L, 38L, 27L, 49L, 10L, 89L, 
9L, 80L, 68L, 26L, 31L, 29L, 84L, 60L, 19L, 97L, 35L, 47L, 70L
)), class = "data.frame", row.names = c(NA, -43L))

轉載請註明出處，本文鏈接：https://www.uj5u.com/net/496116.html

標籤：r 数据框加入合并

上一篇：查找較小但最接近當前值的值

下一篇：如果值不在fence_high和fence_low列之間，如何插入NaN