粒子分布的熊貓資料框：按ID分組并找到半通量和半通量半徑-有解無憂

我正在使用 Panda 資料框；我有一個粒子分布，它們與分布中心的距離，以及相關的通量。我想找到包含在“半通量半徑”（或“半光半徑”）中的總通量，根據定義，這是包圍通量一半的半徑。我給你舉個例子，然后我問你是否知道如何制作它。

這里我列出了2個粒子的分布，用dist_ID標識，每個粒子到分布中心的距離R，以及每個粒子的通量。

     dist_ID          R        flux
0    702641.0    5.791781  0.097505
1    702641.0    2.806051  0.015750
2    702641.0    3.254907  0.086941
3    702641.0    8.291544  0.081764
4    702641.0    4.901959  0.053561
5    702641.0    8.630691  0.144661
...
228  802663.0   95.685763  0.025735
229  802663.0  116.070396  0.026012
230  802663.0  112.806001  0.022163
231  802663.0  229.388117  0.026154

例如，考慮具有的粒子分布dist_ID=702641.0，粒子分布的總通量為“通量”之和：total_flux=0.48；半通量是half_flux=total_flux/2.=0.24; 包含一半通量的半徑是R_2<R_hf<R_3（R_2=3.25粒子 2 的位置；R_3=8.29粒子 3 的位置），所以我認為R_h是該區間的上限，即R_hf=R_3。

我想要一種方法，通過dist_IDPanda 資料框half_flux和R_hf每個分布進行分組。謝謝

uj5u.com熱心網友回復：

可以通過這種方式完成：

import pandas as pd

data = {'dist_ID':  [702641.0,702641.0,702641.0,702641.0,702641.0,702641.0,802663.0,802663.0,802663.0,802663.0],
        'R':        [5.791781,2.806051,3.254907,8.291544,4.901959,8.630691,95.685763,116.070396,112.806001,229.388117],
        'flux':     [0.097505,0.015750,0.086941,0.081764,0.053561,0.144661,0.025735,0.026012,0.022163,0.026154]}
df = pd.DataFrame(data)


# Sort DF
df = df.sort_values(['dist_ID', 'R'])

# Calculate cumsum
df['flux_cumsum'] = df.groupby('dist_ID')['flux'].transform(pd.Series.cumsum)

# Calculate half_flux
df_halfflux = df.groupby('dist_ID').apply(lambda x: x.flux.sum() / 2).to_frame().rename(columns={0:'half_flux'})
df = pd.merge(df,df_halfflux, how="left", on=['dist_ID'])

# Calculate discrepancy
df['flux_diff'] = abs(df.half_flux- df.flux_cumsum)

print(df)

# Find R_hf-row
df = df.groupby(['dist_ID', 'half_flux']).agg({'flux_diff': 'min'}).rename(columns={'flux_diff': 'R_hf'})

print(df)

上面的代碼輸出這個：

    dist_ID           R      flux  flux_cumsum  half_flux  flux_diff
0  702641.0    2.806051  0.015750     0.015750   0.240091   0.224341
1  702641.0    3.254907  0.086941     0.102691   0.240091   0.137400
2  702641.0    4.901959  0.053561     0.156252   0.240091   0.083839
3  702641.0    5.791781  0.097505     0.253757   0.240091   0.013666
4  702641.0    8.291544  0.081764     0.335521   0.240091   0.095430
5  702641.0    8.630691  0.144661     0.480182   0.240091   0.240091
6  802663.0   95.685763  0.025735     0.025735   0.050032   0.024297
7  802663.0  112.806001  0.022163     0.047898   0.050032   0.002134
8  802663.0  116.070396  0.026012     0.073910   0.050032   0.023878
9  802663.0  229.388117  0.026154     0.100064   0.050032   0.050032

                        R_hf
dist_ID  half_flux
702641.0 0.240091   0.013666
802663.0 0.050032   0.002134

uj5u.com熱心網友回復：

如果你想要半通量，它可以通過

df.groupby("dist_ID").apply(lambda x: x.flux.sum()/2)

輸出

dist_ID
702641.0     16.838466
802663.0    276.975139
dtype: float64

不確定你想如何計算半徑，但希望這能幫助你弄清楚。

轉載請註明出處，本文鏈接：https://www.uj5u.com/net/376291.html

標籤：Python 熊猫数据框数据集 pandas-groupby

上一篇：列中的匹配條件

下一篇：pyspark-根據同一行中的其他列動態選擇列內容