我是熊貓的初學者。我有一個包含 10000 個不同用戶資訊的資料檔案。此資料包含 5 列和 10000 行。其中一列是用戶的區域,它根據用戶的居住地劃分用戶(它只定義了 7 個不同的位置,每個位置都有一些用戶居住)。例如,在這 10000 名用戶中,有 300 名用戶住在美國,250 名用戶住在加拿大,并且.. 我想定義一個 DataFrame,其中包括五個隨機的用戶行,不同的是:美國、加拿大、洛杉磯、紐約和日本. 此外,尺寸需要為 20*5。你能幫我怎么做嗎?我知道選擇隨機我需要使用
s = df.sample(n=5)
但是我如何定義從具有這些位置的用戶中選擇 5 個隨機資訊并定義維度?
uj5u.com熱心網友回復:
您還可以從使用以下命令生成的組中采樣groupby:
df.groupby('district').sample(n=5)
要將采樣限制在這些地區,您可以預先過濾 df:
df[df['district'].isin(['USA', 'Canada', 'LA', 'NY', 'Japan'])].groupby('district').sample(n=5)
這是假設'district'是區列。另外,如果我理解正確的話,由于您是從 5 個地區采樣 5 個專案,因此最終 DataFrame 的尺寸應該是 (5*5)x5 = 25x5(25 行和 5 列)。
您需要 pandas 版本 >= 1.1.0 才能使用此方法。
轉載請註明出處,本文鏈接:https://www.uj5u.com/yidong/468414.html
