我精通 Python,但對 Pandas 很陌生,對統計資料幾乎一無所知,所以如果這是一個簡單或無知的問題,請原諒我。
假設我有一個包含兩列的資料框,例如,Jobs其中Cars的條目都是一組有限的字串之一,例如[Software Engineer, Sysadmin, Product Manager]和[Tesla, Hummer, Ford Focus]。
我想制作一個顯示作業和汽車之間相關性的表格,如下所示:
| | Tesla | Hummer | Ford Focus |
| SWE | ### | ### | ### |
| SA | ### | ### | ### |
| PM | ### | ### | ### |
這樣做的最pythonic方式是什么?老實說,這是一次性查詢,我的資料集很小,所以它不需要是最有效的。
編輯:可以像這樣生成示例資料框
from random import choice
jobs = ['SWE', 'Data Scientist', 'Product Manager', 'Sysadmin', 'Data Engineer']
cars = ['Tesla', 'Hummer', 'Ford Focus', 'Chevy Volt', 'Toyota Tercel']
df = pd.DataFrame({
'jobs': [choice(jobs) for _ in range(1000) ],
'cars': [choice(cars) for _ in range(1000) ]
})
預期的輸出將與 of 類似,DataFrame.corr()但該函式僅對數字進行操作,并且這些是字串。
uj5u.com熱心網友回復:
您正在尋找交叉表
pd.crosstab(df['jobs'], df['cars'], normalize = True)
轉載請註明出處,本文鏈接:https://www.uj5u.com/yidong/464364.html
標籤:Python 熊猫 麻木的 matplotlib 数据科学
上一篇:根據來自另一個資料幀的條件更簡單地洗掉熊貓資料幀中的行
下一篇:將公式應用于熊貓資料框
