我有一個資料集,其中在不同的列中包含一些重復的 ID 和日期。我正在嘗試識別和標記重復的 ID,以便我可以使用 ifelse 陳述句進一步分解此資料集。
資料集樣本
如果查看資料,您會看到Case: Case Number列中,有一個重復的ID。在Questionnaire: Created Date列中,日期不同。我基本上希望能夠識別案例編號列中的重復專案,并判斷日期列中的日期是不同的還是相同的。如果我什至能弄清楚如何像 ifelse 陳述句一樣幫助我標記重復的數字,那就太棒了。我只是不確定如何繼續。最終目標是洗掉具有相同日期的重復項。有任何想法嗎?
uj5u.com熱心網友回復:
這是一個例子
library(lubridate)
library(dplyr)
x = data.frame(ID = c(1,1,2,3), date = as_date(c(1,1,2,4))) %>%
group_by(ID,date) %>%
mutate(duplicated = n() > 1)
輸出
ID date duplicated
<dbl> <date> <lgl>
1 1 1970-01-02 TRUE
2 1 1970-01-02 TRUE
3 2 1970-01-03 FALSE
4 3 1970-01-05 FALSE
轉載請註明出處,本文鏈接:https://www.uj5u.com/qukuanlian/384805.html
