在具有名為 的列的資料框中source,由兩個不同的單詞串列組成
source words letter_count
1 list1 apple 5
2 list1 pear 4
3 list1 banana 6
4 list2 ford 4
5 list2 chevy 5
6 list2 apple 5
7 list2 banana 6
我正在嘗試回傳一個新的資料框,顯示 list1 和 list2 中的重復單詞
words letter_count
1 apple 5
2 banana 6
我正在使用 python 和 Pandas
uj5u.com熱心網友回復:
我想你正在尋找pandas.Series.duplicated(). 它回傳一個掩碼(包含與條件匹配的值對應的真/假值的系列),其中在系列中出現多次的值為真,僅出現的值為假。然后,您可以使用該掩碼索引資料幀:
new_df = df[df['words'].duplicated()].drop('source', axis=1)
輸出:
>>> new_df
words letter_count
6 banana 6
7 apple 5
uj5u.com熱心網友回復:
這是一種查找源列的兩個串列中是否存在相同單詞的方法。
df.loc[df['words'].isin(set.intersection(*df.groupby('source')['words'].agg(set))),['words','letter_count']].drop_duplicates('words',keep='last')
Output:
words letter_count
6 apple 5
7 banana 6
轉載請註明出處,本文鏈接:https://www.uj5u.com/caozuo/362737.html
