按熊貓中2個選項卡之間的坐標選擇最近的行-有解無憂

我有一個資料框，例如：

選項卡1

    COL1  start1  end1 COL3
    A     140     180  LO
    B     1000    2000 LA

和另一個資料框，例如：

選項卡2

COL1   start2 end2 COL4
A      3     7     PM
A      10    90    UI
A      80    123   RT
B      0     30    ZA
B      2100  2400  AZ

我想創建一個檔案，例如：

COL1  start1  end1  start2 end2 COL3 COL4 Distance
A     140     180   80     123  LO   RT   17
B     1000    2000  2100   2400 LA   AZ   100

這里的想法是針對Tab1COL1中的每個，我想在Tab2中查看相同的內容，并查看與位置相比最接近的位置。 start2-end2start1-end1

因此，例如在COL1-A中：

選項卡1

COL1  start1  end1 COL3
A     140     180  LO

我在Tab2上有 3 行：

COL1   start2 end2 COL4
A      3     7     PM
A      10    90    UI
A      80    123   RT

如您所見，最接近的 start2-end2140-180是80-123因為：140-123 = 17、140-90= 50 和 140-7 = 133。（17 是最短的，然后是最近的）。所以我將它添加到一個 New_tab 中：

COL1  start1  end1  start2 end2 COL3 COL4 Distance
A     140     180   80     123  LO   RT   17

這里所有坐標都小于start1-end1，但我也可以有start2-end2> start1-end1，例如示例 B：

COL1  start1  end1 COL3
B     1000    2000 LA

在Tab2中，我有 2 個候選人：

COL1   start2 end2 COL4
B      0     30    ZA
B      2100  2400  AZ

最接近的地方是 2100-2400，因為

2100-2000 = 100和1000-30 = 970（最短100 ，然后最接近）。所以我就在New_tab：

COL1  start1  end1  start2 end2 COL3 COL4 Distance
A     140     180   80     123  LO   RT   17
B     1000    2000  2100   2400 LA   AZ   100

到目前為止，我使用那個丑陋的長代碼成功地做到了這一點：

import pandas as pd 

tab1=pd.read_csv("tab1.txt",sep=";")
tab2=pd.read_csv("tab2.txt",sep=";")

New_tab = pd.DataFrame(columns=['COL1',  'start1','end1','start2','end2','COL3','COL4','Distance'])

for letters in tab1['COL1'].unique():
    #Extract subtab for each species 
    #Loop over subBUSCO_table coordinates 
    for index, row in tab1.iterrows():
                subtab2=tab2.loc[tab2['COL1'].str.contains(row['COL1'])]
                if len(subtab2)>0:
                    COL1= row['COL1']
                    COL3= row['COL3']
                    tab1_start = row['start1']
                    tab1_end = row['end1']
                    #Left windows 
                    if len(subtab2.loc[subtab2['end2'].le(tab1_start) & subtab2['start2'].lt(tab1_start)]) >0 :
                        subsubtab2=subtab2.loc[subtab2['end2'].le(tab1_start) & subtab2['start2'].lt(tab1_start)]
                        subsubtab2=subsubtab2.sort_values(by='end2', ascending=False)
                        Distance=tab1_start - subsubtab2.iloc[0]['end2']
                        tab2_start=subsubtab2.iloc[0]['start2']
                        COL4=subsubtab2.iloc[0]['COL4']
                        tab2_end=subsubtab2.iloc[0]['end2']
                        New_tab = New_tab.append({'COL1':COL1,'start1': tab1_start, 'end1':tab1_end,'start2': tab2_start, 'end2':tab2_end,'COL3':COL3, 'COL4':COL4, 'Distance':Distance},ignore_index=True)
                    #Right windows 
                    if len(subtab2.loc[subtab2['end2'].gt(tab1_end) & subtab2['start2'].ge(tab1_end)]) >0 :
                        subsubtab2=subtab2.loc[subtab2['end2'].gt(tab1_end) & subtab2['start2'].ge(tab1_end)]
                        subsubtab2=subsubtab2.sort_values(by='end2', ascending=False)
                        Distance= subsubtab2.iloc[0]['start2'] - tab1_end
                        tab2_start=subsubtab2.iloc[0]['start2']
                        COL4=subsubtab2.iloc[0]['COL4']
                        tab2_end=subsubtab2.iloc[0]['end2']
                        print("right")
                        New_tab = New_tab.append({'COL1':COL1,'start1': tab1_start, 'end1':tab1_end,'start2': tab2_start, 'end2':tab2_end,'COL3':COL3, 'COL4':COL4, 'Distance':Distance},ignore_index=True)

#Sort df Distance 
New_tab=New_tab.sort_values(by='Distance', ascending=True)
#Keep shortest per COL1 
New_tab = New_tab.drop_duplicates(subset=['COL1'], keep='first')

New_tab
  COL1 start1  end1 start2  end2 COL3 COL4 Distance
0    A    140   180     80   123   LO   RT       17
2    B   1000  2000   2100  2400  LA    AZ      100

如果有幫助，這里有兩個 dict 格式的表：

>>> tab1.to_dict()
{'COL1': {0: 'A', 1: 'B'}, 'start1': {0: 140, 1: 1000}, 'end1': {0: 180, 1: 2000}, 'COL3': {0: 'LO', 1: 'LA '}}
>>> tab2.to_dict()
{'COL1': {0: 'A', 1: 'A', 2: 'A', 3: 'B', 4: 'B'}, 'start2': {0: 3, 1: 10, 2: 80, 3: 0, 4: 2100}, 'end2': {0: 7, 1: 90, 2: 123, 3: 30, 4: 2400}, 'COL4': {0: 'PM', 1: 'UI', 2: 'RT', 3: 'ZA', 4: 'AZ'}}

uj5u.com熱心網友回復：

這是一種方法：

(i) 合并 2 個 DataFrames 'COL1'

(ii) 找出和之間的絕對差(end1-start1)并將(end2-start2)其分配給新列'diff'

(iii) 查找Distanceusingnp.where并將其分配給新列'Distance'

(iv) 轉換最小值diff并將其用作布爾掩碼以過濾正確的行

new_tab = tab1.merge(tab2, on='COL1')
new_tab['diff'] = ((new_tab['end1'] - new_tab['start1']) - (new_tab['end2'] - new_tab['start2'])).abs()
first = new_tab['end2'] - new_tab['start1']
second = new_tab['end1'] - new_tab['start2']
new_tab['Distance'] = np.abs(np.where(first>second, second, first))
out = new_tab[new_tab['diff'] == new_tab.groupby('COL1')['diff'].transform('min')].drop('diff', axis=1)

輸出：

  COL1  start1  end1 COL3  start2  end2 COL4  Distance
2    A     140   180   LO      80   123   RT        17
4    B    1000  2000  LA     2100  2400   AZ       100

轉載請註明出處，本文鏈接：https://www.uj5u.com/net/412471.html

標籤：

上一篇：如何根據列中字串的索引拆分列，同時使用有效的方法決議所有Dataframe

下一篇：反應本機變數未定義