PythonPandas：洗掉重復函式-例外行為-有解無憂

錯誤-> TypeError: unhashable type: 'list'在保存資料框并再次加載后消失...

兩個資料幀 [保存和加載，生成] 具有相同的 dtypes ...

可重現->

--> import pandas as pd
--> l1 = [[1], [1], [1], [1], [1], [1], [1], [1], [6], [1], [6], [1], [6], [6], [6], [6], [6], [6], [6], [6], [6]]

## len(l1) is 21 ##

--> l2 = ['a']*21
--> l3 = ['c']*10   ['d']*10   ['e']
--> df = pd.DataFrame()
--> df['col1'], df['col2'], df['col3'] = l1, l3, l2
--> df
        col1 col2 col3
        0   [1]    c    a
        1   [1]    c    a
        2   [1]    c    a
        3   [1]    c    a
        4   [1]    c    a
        5   [1]    c    a
        6   [1]    c    a
        7   [1]    c    a
        8   [6]    c    a
        9   [1]    c    a
        10  [6]    d    a
        11  [1]    d    a
        12  [6]    d    a
        13  [6]    d    a
        14  [6]    d    a
        15  [6]    d    a
        16  [6]    d    a
        17  [6]    d    a
        18  [6]    d    a
        19  [6]    d    a
        20  [6]    e    a

--> df.dtypes
        col1    object
        col2    object
        col3    object
        dtype: object

--> df.drop_duplicates(subset=['col1', 'col2', 'col3'], keep='last', inplace=True)
        
        ## TypeError: unhashable type: 'list' ##

## Here if I save it as an excel and load again, then this error does not come up ... ##

--> df.to_excel('test.xlsx')
--> df_ = pd.read_excel('test.xlsx')
--> df_.dtypes
        Unnamed: 0     int64
        col1    object
        col2    object
        col3    object
        dtype: object
--> df_.drop_duplicates(subset=['col1', 'col2', 'col3'], keep='last', inplace=True)
--> df_
         Unnamed: 0 col1 col2 col3
        8       8   [6]    c    a
        9       9   [1]    c    a
        11      11  [1]    d    a
        19      19  [6]    d    a
        20      20  [6]    e    a

這種行為有解釋嗎？

問題的擴展追溯

回溯（最近一次通話最后）：

檔案“”，第 1 行，在

檔案“C:\Users\Agnij\Anaconda3\lib\site-packages\pandas\core\frame.py”，第 4811 行，在 drop_duplicates

重復= self.duplicated（子集，保持=保持）

檔案“C:\Users\Agnij\Anaconda3\lib\site-packages\pandas\core\frame.py”，第 4888 行，重復標簽，形狀 = map(list, zip(*map(f, vals)))

檔案“C:\Users\Agnij\Anaconda3\lib\site-packages\pandas\core\frame.py”，第 4863 行，在 f vals 中，size_hint=min(len(self), _SIZE_HINT_LIMIT)

檔案“C:\Users\Agnij\Anaconda3\lib\site-packages\pandas\core\algorithms.py”，第 636 行，分解值，na_sentinel=na_sentinel，size_hint=size_hint，na_value=na_value

檔案“C:\Users\Agnij\Anaconda3\lib\site-packages\pandas\core\algorithms.py”，第 484 行，在 _factorize_array 唯一性中，代碼 = table.factorize(values, na_sentinel=na_sentinel, na_value=na_value)

檔案“pandas_libs\hashtable_class_helper.pxi”，第 1815 行，在 pandas._libs.hashtable.PyObjectHashTable.factorize

檔案“pandas_libs\hashtable_class_helper.pxi”，第 1731 行，在 pandas._libs.hashtable.PyObjectHashTable._unique

uj5u.com熱心網友回復：

drop_duplicates 散列物件以有效地跟蹤哪些物件已被看到或未看到。

lists 不可散列（因為它們是可變的），因此您不能直接在它們上使用 drop_duplicates 。當您保存和加載資料時，可能會將其轉換為字串，從而可以計算哈希值。

為了解決這個問題，您可以將串列轉換為可散列的元組：

df['col1'] = df['col1'].apply(tuple)
# now this runs with no error
df.drop_duplicates(subset=['col1', 'col2', 'col3'], keep='last', inplace=True)

uj5u.com熱心網友回復：

因為即使兩列都是 dtype 物件，它們中的專案也是不同的型別：

>>> df.loc[0,'col1']
[1]


>>> df_.loc[0, 'col1']
'[1]'

由于字串是可散列的，因此您看不到以前使用串列時遇到的錯誤。

轉載請註明出處，本文鏈接：https://www.uj5u.com/net/412451.html

標籤：

上一篇：如何使用零值進行填充，直到資料出現在每列中，然后對熊貓資料框中的每一列使用前向填充

下一篇：R：Pivot_Wider/spread通過獲取按年份排序的平均值