如何在熊貓資料框中搜索字串并與另一個匹配？-有解無憂

我正在嘗試比較 2 個不同熊貓資料框（A 和 B）的 2 列（字串），如果它們匹配一段字串，我想將資料框 A 中的一列的值分配給資料框 B。

這是我的代碼：


import numpy as np
import pandas as pd

A = ['DF-PI-05', 'DF-PI-09', 'DF-PI-10', 'DF-PI-15', 'DF-PI-16',
       'DF-PI-19', 'DF-PI-89', 'DF-PI-92', 'DF-PI-93', 'DF-PI-94',
       'DF-PI-95', 'DF-PI-96', 'DF-PI-25', 'DF-PI-29', 'DF-PI-30',
       'DF-PI-34', 'DF-PI-84']

B = ['PI-05', 'PI-10', 'PI-89', 'PI-90', 'PI-93', 'PI-94', 'PI-95',
       'PI-96', 'PI-09', 'PI-15', 'PI-16', 'PI-19', 'PI-91A', 'PI-91b',
       'PI-92', 'PI-25-CU', 'PI-29', 'PI-30', 'PI-34', 'PI-84-CU-S1',
       'PI-84-CU-S2']

import random
sample_size = len(A)
Group = [random.randint(0,1) for _ in range(sample_size)]

A = pd.DataFrame(list(zip(A,Group)),columns=['ID','Group'])
B = pd.DataFrame(B,columns=['Name'])

clus_tx = np.array([])
for date, row in B.iterrows():    
    for date2, row2 in A.iterrows():
        if row2['ID'] in row['Name']:
            clus = row['Group']
        else:
            clus = 999
        clus_tx = np.append(clus_tx,clus)
        
B['Group'] = clus_tx

我想要的是一個長度為B的np.array clus_tx，如果有一個元素的字串與A（'PI-xx'）匹配，我會取'Group'列的值從 A 分配給 B，如果沒有字串匹配，我會將 999 的值分配給 B 中的“組”列。我認為我做錯了回圈，因為 clus_tx 的大小不是我所期望的。 ..我的真實資料集很大，所以我無法手動執行此操作。

uj5u.com熱心網友回復：

首先，大小clus_tx不是你想要的原因是你放在clus_tx = np.append(clus_tx,clus)最里面的回圈中，它沒有中斷。所以的長度clus_tx總是len(A) x len(B)。

其次，if陳述句塊的邏輯不是你想要的。

代碼稍作修改，希望對您有所幫助：

import numpy as np
import pandas as pd

A = ['DF-PI-05', 'DF-PI-09', 'DF-PI-10', 'DF-PI-15', 'DF-PI-16',
       'DF-PI-19', 'DF-PI-89', 'DF-PI-92', 'DF-PI-93', 'DF-PI-94',
       'DF-PI-95', 'DF-PI-96', 'DF-PI-25', 'DF-PI-29', 'DF-PI-30',
       'DF-PI-34', 'DF-PI-84']

B = ['PI-05', 'PI-10', 'PI-89', 'PI-90', 'PI-93', 'PI-94', 'PI-95',
       'PI-96', 'PI-09', 'PI-15', 'PI-16', 'PI-19', 'PI-91A', 'PI-91b',
       'PI-92', 'PI-25-CU', 'PI-29', 'PI-30', 'PI-34', 'PI-84-CU-S1',
       'PI-84-CU-S2']

import random
sample_size = len(A)
Group = [random.randint(0,1) for _ in range(sample_size)]

A = pd.DataFrame(list(zip(A,Group)),columns=['ID','Group'])
B = pd.DataFrame(B,columns=['Name'])

clus_tx = np.array([])
for date, row_B in B.iterrows():
    clus = 999
    for date2, row_A in A.iterrows():
        if row_B['Name'] in row_A['ID']:
            clus = row_A['Group']
            break
    clus_tx = np.append(clus_tx,clus)
        
B['Group'] = clus_tx
print(B)

B 的列印輸出如下所示：

           Name  Group
0         PI-05    0.0
1         PI-10    0.0
2         PI-89    1.0
3         PI-90  999.0
4         PI-93    0.0
5         PI-94    1.0
6         PI-95    1.0
7         PI-96    0.0
8         PI-09    1.0
9         PI-15    0.0
10        PI-16    1.0
11        PI-19    1.0
12       PI-91A  999.0
13       PI-91b  999.0
14        PI-92    1.0
15     PI-25-CU  999.0
16        PI-29    0.0
17        PI-30    1.0
18        PI-34    0.0
19  PI-84-CU-S1  999.0
20  PI-84-CU-S2  999.0

轉載請註明出處，本文鏈接：https://www.uj5u.com/yidong/478128.html

標籤：Python 细绳数据框 for循环

上一篇：字串索引超出范圍的問題

下一篇：python正則運算式的變數在包含特定字符時不起作用