我有以下資料框,我想創建“OUTPUT_COLUMN”。
列的說明:
- ID 是保單的標識號
- ID_REG_YEAR 是每個注冊年份的標識號
- CALENDAR_YEAR 是保單曝光的年份
- NUMBER_OF_RENEWALS 是保單已續訂的人數
- ACCIDENT 是事故發生
資料集的關鍵: ID_REG_YEAR 和 CALENDAR_YEAR
基本上,如果列 NUMBER_OF_RENEWALS = 0,則 OUTPUT_COLUMN = 100。之前未發生事故的任何行都應包含 100(例如,第 13、16、17 行)。如果發生事故,我想計算下一次事故之前的續訂次數。
ID ID_REG_YEAR CALENDAR_YEAR NUMBER_OF_RENEWALS ACCIDENT OUTPUT_COLUMN
1 A A_2015 2015 0 YES 100
2 A A_2015 2016 0 YES 100
3 A A_2016 2016 1 YES 0
4 A A_2016 2017 1 YES 0
5 A A_2017 2017 2 NO 1
6 A A_2017 2018 2 NO 1
7 A A_2018 2018 3 NO 2
8 A A_2018 2019 3 NO 2
9 A A_2019 2019 4 YES 0
10 A A_2019 2020 4 YES 0
11 B B_2015 2015 0 NO 100
12 B B_2015 2016 0 NO 100
13 B B_2016 2016 1 NO 100
14 C C_2013 2013 0 NO 100
15 C C_2013 2014 0 NO 100
16 C C_2014 2014 1 NO 100
17 C C_2014 2015 1 NO 100
18 C C_2015 2015 2 YES 0
19 C C_2015 2016 2 YES 0
20 C C_2016 2016 3 NO 1
21 C C_2016 2017 3 NO 1
22 C C_2017 2017 4 NO 2
23 C C_2017 2018 4 NO 2
24 C C_2018 2018 5 YES 0
25 C C_2018 2019 5 YES 0
26 C C_2019 2019 6 NO 1
27 C C_2019 2020 6 NO 1
28 C C_2020 2020 7 NO 2
uj5u.com熱心網友回復:
這是一個dplyr解決方案。首先,獲得一個單獨的注冊年份列,用于計算自上次事故以來的更新(假設這是自上次事故以來的年數)。然后,在按 分組后創建一列以包含上次事故的年份ID。使用fill此值將被傳播。最終結果列將設定為 100(如果之前沒有事故,或者NUMBER_OF_RENEWALS為零)與注冊年份 - 上次事故年份。
library(dplyr)
df %>%
separate(ID_REG_YEAR, into = c("ID_REG", "REG_YEAR"), convert = T) %>%
group_by(ID) %>%
mutate(LAST_ACCIDENT = ifelse(ACCIDENT == "YES", REG_YEAR, NA_integer_)) %>%
fill(LAST_ACCIDENT, .direction = "down") %>%
mutate(OUTPUT_COLUMN_2 = ifelse(
is.na(LAST_ACCIDENT) | NUMBER_OF_RENEWALS == 0, 100, REG_YEAR - LAST_ACCIDENT
))
輸出
ID ID_REG REG_YEAR CALENDAR_YEAR NUMBER_OF_RENEWALS ACCIDENT OUTPUT_COLUMN LAST_ACCIDENT OUTPUT_COLUMN_2
<chr> <chr> <int> <int> <int> <chr> <int> <int> <dbl>
1 A A 2015 2015 0 YES 100 2015 100
2 A A 2015 2016 0 YES 100 2015 100
3 A A 2016 2016 1 YES 0 2016 0
4 A A 2016 2017 1 YES 0 2016 0
5 A A 2017 2017 2 NO 1 2016 1
6 A A 2017 2018 2 NO 1 2016 1
7 A A 2018 2018 3 NO 2 2016 2
8 A A 2018 2019 3 NO 2 2016 2
9 A A 2019 2019 4 YES 0 2019 0
10 A A 2019 2020 4 YES 0 2019 0
# … with 18 more rows
注意:如果您想使用您的保單編號 ( NUMBER_OF_RENEWALS) 而不是按年份計算,您可以執行類似的操作。您可以添加上次事故政策,而不是添加包含上次事故年份的列。然后,您的輸出列可以反映保單編號而不是年份(考慮可以跳過一年或多年的可能性)。
df %>%
separate(ID_REG_YEAR, into = c("ID_REG", "REG_YEAR"), convert = T) %>%
group_by(ID) %>%
mutate(LAST_ACCIDENT_POLICY = ifelse(ACCIDENT == "YES", NUMBER_OF_RENEWALS, NA_integer_)) %>%
fill(LAST_ACCIDENT_POLICY, .direction = "down") %>%
mutate(OUTPUT_COLUMN_2 = ifelse(
is.na(LAST_ACCIDENT_POLICY) | NUMBER_OF_RENEWALS == 0, 100, NUMBER_OF_RENEWALS - LAST_ACCIDENT_POLICY
))
轉載請註明出處,本文鏈接:https://www.uj5u.com/qiye/388511.html
下一篇:R-連分數
