我有一個看起來像這樣的資料框:
user institution group result quiz
a Company 1a True zzz
a Company 1a False yyy
a Company 1a True yyy
a Company 1a False www
b Company 1a False www
c Company 1b False yyy
c Company 1b True yyy
d Company 1c True qqq
d Company 1c True zzz
d Company 1c True yyy
e Company 1c False zzz
e Company 1c False yyy
e Company 1c False yyy
機構是相同的(在原始資料集中,我有多個機構,但我將資料集拆分為多個資料框,如上所示)。用戶可以多次回答多個測驗。每個用戶只能在一個組中。
我怎么能只考慮每個用戶對他回答的每個測驗的第一個回答?
user institution group FirstResult quiz
a Company 1a True zzz
a Company 1a False yyy
a Company 1a False www
b Company 1a False www
c Company 1b False yyy
d Company 1c True qqq
d Company 1c True zzz
d Company 1c True yyy
e Company 1c False zzz
e Company 1c False yyy
我嘗試使用 天真地手動洗掉行df.drop,但是當資料框很大時這是不可能的。條件基本上是這樣,user并quiz發生第二次、第三次、第 n 次。
uj5u.com熱心網友回復:
Pandas 具有以下DataFrame.drop_duplicates()功能:
deduped = df.drop_duplicates(subset=["user", "institution", "group", "quiz"], keep="first")
轉載請註明出處,本文鏈接:https://www.uj5u.com/qiye/315279.html
上一篇:Python 熊貓資料框
