我環顧四周,發現了類似的問題,但沒有一個真正幫助我找到解決方案。我希望我的腳本讀取如下所示的 csv:
hot_dict = {'Links': links, 'Titles': titles, 'Datestamps': datestamp_extended,'GroupID': "" }
我想在列鏈接中找到所有重復的鏈接,并在“GroupID”列中為所有相同的鍵分配相同的鏈接
| 鏈接 | 組ID |
|---|---|
| 一種 | 鍵1 |
| 乙 | 鍵2 |
| 一種 | 鍵1 |
| 乙 | 鍵2 |
這顯然給了我真偽值:
df['GroupID'] =df.duplicated(subset=['Links'], keep=False)
有沒有一種優雅的方式可以從這里繼續?
非常感謝!
uj5u.com熱心網友回復:
對于具有整數 ID 的簡單鍵,您可以先將 Links 列轉換為categorical data,然后從中獲取類別代碼:
df['GroupID'] = df['Links'].astype('category').cat.codes
轉載請註明出處,本文鏈接:https://www.uj5u.com/yidong/468412.html
