如何獲取最大值不重復的行的索引？-有解無憂

鑒于這個 df

from io import StringIO
import pandas as pd

data = StringIO('''gene_variant gene    val1    val2    val3
b1  b   1   1   1
b2  b   2   11  1
b3  b   3   11  1
c2  c   1   1   1
t1  t   1   1   1
t2  t   12  2   2
t4  t   12  3   2
t5  t   1   4   3
d2  d   11  1   2
d4  d   11  1   1''')
df = pd.read_csv(data, sep='\t')

我如何獲得每個基因的gene_variant；如果最大值不重復，gene_variant 對應于 val1 的最大值，如果重復，則如果 val2 的最大值不重復，gene_variant 對應于 val2 的最大值，或者只是 val3 的最大值？即，任何決勝局由下一列決定，直到第三個選項。

編輯：僅當 val1 中的最大 val 是重復/平局時才考慮列 val2 。與 val3 相同。如果 val1/2 中的最大 val 重復/是平局，則不再考慮這些列中的值。一次只比較 1 列中的值。

我一直在嘗試基于以下的解決方案：

df.groupby('gene').agg(max)

和：

df.groupby('gene').rank('max')

但是如果不退出迭代，我就無法到達那里......

正確的答案是：

b3 3
c2 1
t5 4
d2 2

提前致謝！

uj5u.com熱心網友回復：

如果僅對沒有重復值的組需要最大值，則可以使用：

#per groups count number of unique values
df1 = df.groupby('gene').transform('nunique')

#compare columns with `gene_variant` and set NaN if duplicates per columns
 
#if maximum is count from all columns if not duplicated values get max
max1 = df.where(df1.eq(df1.pop('gene_variant'), axis=0)).max(axis=1)

#if max is count by order - first val1, then val2
#back filling missing values and select first column
max1 = df.where(df1.eq(df1.pop('gene_variant'), axis=0)).bfill(axis=1).iloc[:, 0]

#assign column by maximum
df = df.assign(max1 = max1)

#get rows from original with maximum max1 per groups
df = df.loc[df.groupby('gene', sort=False)['max1'].idxmax(), ['gene_variant','max1']]
print (df)
  gene_variant  max1
2           b3   3.0
3           c2   1.0
7           t5   4.0
8           d2   2.0

它是如何作業的：

df1 = df.groupby('gene').transform('nunique')

s = df1.pop('gene_variant')

print (df.where(df1.eq(s, axis=0)))
  gene_variant gene  val1  val2  val3
0          NaN  NaN   1.0   NaN   NaN
1          NaN  NaN   2.0   NaN   NaN
2          NaN  NaN   3.0   NaN   NaN
3          NaN  NaN   1.0   1.0   1.0
4          NaN  NaN   NaN   1.0   NaN
5          NaN  NaN   NaN   2.0   NaN
6          NaN  NaN   NaN   3.0   NaN
7          NaN  NaN   NaN   4.0   NaN
8          NaN  NaN   NaN   NaN   2.0
9          NaN  NaN   NaN   NaN   1.0

#max of all columns
print (df.where(df1.eq(s, axis=0)).max(axis=1))
0    1.0
1    2.0
2    3.0
3    1.0
4    1.0
5    2.0
6    3.0
7    4.0
8    2.0
9    1.0
dtype: float64

#back fill NaNs
print (df.where(df1.eq(s, axis=0)).bfill(axis=1))
   gene_variant  gene  val1  val2  val3
0           1.0   1.0   1.0   NaN   NaN
1           2.0   2.0   2.0   NaN   NaN
2           3.0   3.0   3.0   NaN   NaN
3           1.0   1.0   1.0   1.0   1.0
4           1.0   1.0   1.0   1.0   NaN
5           2.0   2.0   2.0   2.0   NaN
6           3.0   3.0   3.0   3.0   NaN
7           4.0   4.0   4.0   4.0   NaN
8           2.0   2.0   2.0   2.0   2.0
9           1.0   1.0   1.0   1.0   1.0

#selected first column
print (df.where(df1.eq(s, axis=0)).bfill(axis=1).iloc[:, 0])
0    1.0
1    2.0
2    3.0
3    1.0
4    1.0
5    2.0
6    3.0
7    4.0
8    2.0
9    1.0
Name: gene_variant, dtype: float64

uj5u.com熱心網友回復：

您可以使用.sort_values()來獲取最大值。如果您將其傳遞多列，它將正確處理 tiebrakers。

In [9]: df.sort_values(["val1", "val2", "val3"])
Out[9]: 
  gene_variant gene  val1  val2  val3
0           b1    b     1     1     1
3           c2    c     1     1     1
4           t1    t     1     1     1
9           d4    d     1     1     1
8           d2    d     1     1     2
7           t5    t     1     4     3
1           b2    b     2     1     1
5           t2    t     2     2     2
6           t4    t     2     3     2
2           b3    b     3     1     1

現在，為了對每個基因執行此操作，您可以groupby('gene')應用自定義函式。

In [11]: df.groupby("gene").apply(
    ...:     lambda _df: _df.sort_values(["val1", "val2", "val3"], ascending=False)
    ...:     .head(1)
    ...:     .squeeze()
    ...: )
Out[11]: 
     gene_variant gene  val1  val2  val3
gene                                    
b              b3    b     3     1     1
c              c2    c     1     1     1
d              d2    d     1     1     2
t              t4    t     2     3     2

但是，這并不能告訴您是哪個val贏得了 tiebraker。

轉載請註明出處，本文鏈接：https://www.uj5u.com/net/519764.html

標籤：Pythonpython-3.x熊猫通过...分组最大限度

上一篇：根據另一列的值列印列的計數

下一篇：如何將檔案寫入python中的另一個檔案夾