如何簡化data.table邏輯并使其在pandas中可行？-有解無憂

我有一個包含多列數值的資料框。我想要比較其他列的值并將其列名分配為標簽的新列。我已經理解了它在 r 中的邏輯，但是想知道我應該如何在 python 中輕松地做到這一點。當我們嘗試添加需要比較多列值并分配具有最大值的列名的新列時，誰能指出如何在 python 中完成此操作？任何想法？

可重現的例子

這是 R 中 100% 作業可重現的示例：

library(data.table)

df <- data.frame(a = sample(seq(1:10), size=10), b = sample(LETTERS[1:10], size=10), cnt=sample(seq(1:100), size=5),
                 RECENT_MOV= sample(seq(1:1000), size = 10),
                 RETIRED= sample(seq(1:200), size = 10),
                 SERV_EMPL= sample(seq(1:500), size = 10),
                 SUB_BUS=sample(seq(1:2000), size = 10),
                 WORK_HOME=sample(seq(1:1200), size = 10)
                 )

dt <- as.data.table(df)
write.csv(dt, "sample.csv")
label = c("RECENT_MOV", "RETIRED", "SERV_EMPL", "SUB_BUS","WORK_HOME")
df$category <- NA_character_
df[, row_ind:= 1:nrow(df)]
df[cnt > 2, category := names(which.max(.SD[, label, with = FALSE])), by = row_ind]

當前輸出為：

> dput(dt)
structure(list(a = c(5L, 10L, 1L, 6L, 7L, 3L, 2L, 8L, 4L, 9L), 
    b = c("E", "A", "D", "H", "J", "F", "G", "I", "C", "B"), 
    cnt = c(13L, 88L, 45L, 92L, 70L, 13L, 88L, 45L, 92L, 70L), 
    RECENT_MOV = c(70L, 195L, 620L, 572L, 354L, 648L, 798L, 657L, 
    233L, 672L), RETIRED = c(189L, 195L, 191L, 88L, 148L, 186L, 
    39L, 78L, 158L, 55L), SERV_EMPL = c(65L, 151L, 415L, 383L, 
    255L, 207L, 210L, 470L, 181L, 188L), SUB_BUS = c(894L, 829L, 
    1798L, 502L, 897L, 1461L, 744L, 1991L, 260L, 1697L), WORK_HOME = c(553L, 
    739L, 454L, 137L, 435L, 1042L, 316L, 697L, 517L, 1158L), 
    category = c("SUB_BUS", "SUB_BUS", "SUB_BUS", "RECENT_MOV", 
    "SUB_BUS", "SUB_BUS", "RECENT_MOV", "SUB_BUS", "WORK_HOME", 
    "SUB_BUS"), row_ind = 1:10), row.names = c(NA, -10L), class = c("data.table", 
"data.frame"), .internal.selfref = <pointer: 0x0000015a64b61ef0>)

我目前的 python 嘗試

import pandas as pd

df=pd.read_csv("sample.csv", index_col=None, header=0)

label = ["RECENT_MOV", "RETIRED", "SERV_EMPL", "SUB_BUS","WORK_HOME"]
df['category'] = pd.NA
df['row_ind'] = range(1,len(df))

但是，我很難以 pythonic 方式制作這條線：

df[cnt > 2, category := names(which.max(.SD[, label, with = FALSE])), by = row_ind]

基本上，這行說創建稱為類別的新列變數，其中比較標簽中的列，無論哪一列具有最大值，其列名將被分配為類別列中的值。我應該如何在python中輕松做到這一點？

logic translation:

df[cnt > 2, category := names(which.max(.SD[, label, with = FALSE])), by = row_ind]

this line telling us that first do filter by cnt column where cnt > 2, then compare columns values of df[["RECENT_MOV", "RETIRED", "SERV_EMPL", "SUB_BUS","WORK_HOME"]] and pick the column with highest value by row-wise and assign that name of that column as value to df['category']=col_name_with_highest_value_in_each_row.

desirable output

this is desirable output that I want to produce in python:

    a b cnt RECENT_MOV RETIRED SERV_EMPL SUB_BUS WORK_HOME   category row_ind
1   5 E  13         70     189        65     894       553    SUB_BUS       1
2  10 A  88        195     195       151     829       739    SUB_BUS       2
3   1 D  45        620     191       415    1798       454    SUB_BUS       3
4   6 H  92        572      88       383     502       137 RECENT_MOV       4
5   7 J  70        354     148       255     897       435    SUB_BUS       5
6   3 F  13        648     186       207    1461      1042    SUB_BUS       6
7   2 G  88        798      39       210     744       316 RECENT_MOV       7
8   8 I  45        657      78       470    1991       697    SUB_BUS       8
9   4 C  92        233     158       181     260       517  WORK_HOME       9
10  9 B  70        672      55       188    1697      1158    SUB_BUS      10

uj5u.com熱心網友回復：

這實際上對于 pandas 來說非常簡單。有一個要搜索的列串列，然后使用idxmaxwith axis=1：

# Filter out rows where `cnt` is less than or equal to 2
df = df[df['cnt'] > 2]

# Determine category for each row
search_cols = ['RECENT_MOV', 'RETIRED', 'SERV_EMPL', 'SUB_BUS', 'WORK_HOME']
df['category'] = df[search_cols].idxmax(axis=1)

# Assign row indexes
df['row_ind'] = df.index

輸出：

>>> df
     a  b  cnt  RECENT_MOV  RETIRED  SERV_EMPL  SUB_BUS  WORK_HOME    category  row_ind
1    1  C   76         452       62         55      115        247  RECENT_MOV        1
2    7  E   14          50      165        337     1165        810     SUB_BUS        2
3    2  A   46         523      167        423      784        707     SUB_BUS        3
4    3  H    3          38      144        473      745        437     SUB_BUS        4
5    5  I   59         743      127        261      351        190  RECENT_MOV        5
6    8  J   76         143       49        470     1612        935     SUB_BUS        6
7    4  D   14         818      101        418     1919        314     SUB_BUS        7
8    6  F   46         714        9        446     1432        938     SUB_BUS        8
9   10  B    3         585      160         14      107        489  RECENT_MOV        9
10   9  G   59         814       73        449      937        287     SUB_BUS       10

轉載請註明出處，本文鏈接：https://www.uj5u.com/qukuanlian/443642.html

標籤：python r pandas dataframe data.table

上一篇：查找元素符號從0變為1的索引

下一篇：如何用熊貓資料框列中串列的第一個元素替換串列？