基于來自不同資料幀的列的Pandas條件查找-有解無憂

我已經搜索過但沒有找到我的問題的答案。我的第一個資料框看起來像：

df1

Item    Value
1   23
2   3
3   45
4   65
5   17
6   6
7   18
…   … 
500 78
501 98

第二個查找表看起來像

df2

L1  H1  L2  H2  L3  H3  L4  H4  L5  H5  Name
1   3   5   6   11  78  86  88  90  90  A
4   4   7   10  79  85  91  99  110 120 B
89  89  91  109 0   0   0   0   0   0   C
...

我想要做的是當 df1 中的專案落在低 (L) 和高 (H) 列之間時，將 Name 從 df2 獲取到 df1。一些（不起作用）如：

df1[Name]=np.where((df1['Item']>=df2['L1'] & df1['Item']<=df2['H1'])|
(df1['Item']>=df2['L2'] & df1['Item']<=df2['H2']) |
(df1['Item']>=df2['L3'] & df1['Item']<=df2['H3']) |
(df1['Item']>=df2['L4'] & df1['Item']<=df2['H4']) |
(df1['Item']>=df2['L5'] & df1['Item']<=df2['H5']) |
(df1['Item']>=df2['L6'] & df1['Item']<=df2['H6']), df2['Name'], "Other")

所以結果會是這樣的：

Item    Value   Name
1   23  A
2   3   A
3   45  A
4   65  B
5   17  A
6   6   A
7   18  A
…   …   …
500 78  K
501 98  Other

如果您對我的問題有任何指導可以分享，我將不勝感激！先感謝您！

uj5u.com熱心網友回復：

嘗試：

轉換df2使用wide_to_long
使用apply和為每一行創建從“L”到“H”的數字串列range
explode 每一行都有一個值
mapdf1使用結構dict創建的每個“專案”ranges{value: name}

ranges = pd.wide_to_long(df2, ["L","H"], i="Name", j="Subset")
ranges["values"] = ranges.apply(lambda x: list(range(x["L"], x["H"] 1)), axis=1)
ranges = ranges.explode("values").reset_index()

df1["Name"] = df1["Item"].map(dict(zip(ranges["values"], ranges["Name"])))

>>> df1
   Item  Value Name
0     1     23    A
1     2      3    A
2     3     45    A
3     4     65    B
4     5     17    A
5     6      6    A
6     7     18    B
7   500     78  NaN
8   501     98  NaN

uj5u.com熱心網友回復：

更快的選項（測驗可以證明/揭穿那個），將使用conditional_join從pyjanitor（conditional_join使用罩蓋下方二進制搜索）：

#pip install pyjanitor
import pandas as pd
import janitor
temp = (pd.wide_to_long(df2, 
                        stubnames=['L', 'H'], 
                        i='Name', 
                        j='Num')
          .reset_index('Name')
        )

# the `Num` index is sorted already
(df1.conditional_join(
            temp, 
            # left column, right column, join operator
            ('Item', 'L', '>='), 
            ('Item', 'H', '<='),
            how = 'left')
    .loc[:, ['Item', 'Value', 'Name']]
)
   Item  Value Name
0     1     23    A
1     2      3    A
2     3     45    A
3     4     65    B
4     5     17    A
5     6      6    A
6     7     18    B
7   500     78  NaN
8   501     98  NaN

轉載請註明出處，本文鏈接：https://www.uj5u.com/gongcheng/369809.html

標籤：Python 熊猫数据框麻木的

上一篇：Python提取不在另一個numpy陣列中的行

下一篇：我想根據它們的長度對我擁有的NumPy陣列中的子陣列進行排序