Pandas資料可視化的備忘錄-有解無憂

作者|Rashida Nasrin Sucky
編譯|VK
來源|Towards Data Science

我們使用python的pandas庫主要用于資料分析中的資料操作，但我們也可以使用Pandas進行資料可視化，你甚至不需要為此匯入Matplotlib庫，

Pandas本身可以在后端使用Matplotlib并為你呈現可視化效果，它使得使用資料幀列繪制圖變得非常容易，Pandas使用比Matplotlib更高級別的API，因此，它可以用更少的代碼行來繪制繪圖，

我將從使用隨機資料從基本的繪圖開始，然后轉到更高級的帶有真實資料集的繪圖，

在本教程中，我將使用Jupyter Notebook環境，如果你沒有安裝，你可以簡單地使用谷歌Colab Notebook，你甚至不需要在上面安裝Pandas，它已經為我們安裝好了，

如果你想安裝一個Jupyter Notebook，那也是個好主意，

對于資料科學家來說，這是一個很好的軟體包，而且是免費的，

安裝pandas使用：

pip install pandas

或者在你的anaconda上

conda install pandas

這樣就準備好了

pandas可視化

我們將從最基本的開始，

直線圖

首先匯入pandas，然后，讓我們用pandas做一個基本的系列，畫一個直線圖，

import pandas as pd
a = pd.Series([40, 34, 30, 22, 28, 17, 19, 20, 13, 9, 15, 10, 7, 3])
a.plot()

最基本最簡單的圖準備好了！看，這是多么容易，我們可以改進一下，

我將補充：

更改一個圖形大小，使圖表更大，

更改的默認藍色

顯示標題

更改軸上這些數字的默認字體大小

a.plot(figsize=(8, 6), color='green', title = 'Line Plot', fontsize=12)

在本教程中，我們將學習更多的樣式技巧，

面積圖

我會用相同的資料a在這里畫一個面積圖，

我可以使用.plot方法并傳遞一個引數型別來指定我想要的繪圖型別，例如：

a.plot(kind='area')

或者我可以這樣寫

a.plot.area()

我上面提到的兩種方法都將創建此圖：

面積圖更有意義，而且當其中有多個變數時看起來也更好，所以，我將制作更多Series，制作一個資料框，并從中繪制一個面積圖，

b = pd.Series([45, 22, 12, 9, 20, 34, 28, 19, 26, 38, 41, 24, 14, 32])
c = pd.Series([25, 38, 33, 38, 23, 12, 30, 37, 34, 22, 16, 24, 12, 9])
d = pd.DataFrame({'a':a, 'b': b, 'c': c})

讓我們把這個資料框“d”畫成面積圖，

d.plot.area(figsize=(8, 6), title='Area Plot')

你不必接受這些默認顏色，讓我們把這些顏色換一下，再加些樣式，

d.plot.area(alpha=0.4, color=['coral', 'purple', 'lightgreen'],figsize=(8, 6), title='Area Plot', fontsize=12)

“alpha”引數為繪圖添加了一些半透明的外觀，

當我們有重疊的面積圖、直方圖或密集的散點圖時，它似乎非常有用，

plot()可以執行11種型別的繪圖：

line
area
bar
barh
pie
box
hexbin
hist
kde
density
scatter

我想展示所有這些不同圖的用法，為此，我將使用疾病控制和預防中心的NHANES資料集，我下載了這個資料集，并把它和這個Jupyter Notebook放在同一個檔案夾里，請隨時下載該資料集并跟隨：https://github.com/rashida048/Datasets/blob/master/nhanes_2015_2016.csv

在這里匯入資料集：

df = pd.read_csv('nhanes_2015_2016.csv')
df.head()

這個資料集有30列5735行，

在開始繪制繪圖之前，檢查資料集的列很重要：

df.columns

輸出：

Index(['SEQN', 'ALQ101', 'ALQ110', 'ALQ130', 'SMQ020', 'RIAGENDR', 'RIDAGEYR', 'RIDRETH1', 'DMDCITZN', 'DMDEDUC2', 'DMDMARTL', 'DMDHHSIZ', 'WTINT2YR', 'SDMVPSU', 'SDMVSTRA', 'INDFMPIR', 'BPXSY1', 'BPXDI1', 'BPXSY2', 'BPXDI2', 'BMXWT', 'BMXHT', 'BMXBMI', 'BMXLEG', 'BMXARML', 'BMXARMC', 'BMXWAIST', 'HIQ210', 'DMDEDUC2x', 'DMDMARTLx'], dtype='object')

列的名稱可能看起來很奇怪，但別擔心，我將繼續解釋列的含義，我們不會使用所有列，我們將用其中的一些來練習這些圖表，

直方圖

我將使用人口的權重來制作一個基本的直方圖

df['BMXWT'].hist()

作為提醒，直方圖提供了頻率分布，上圖顯示大約1825人體重75，最大的體重在49到99之間，

如果我想把幾個柱狀圖放在一個圖上呢？

我將使用體重、身高和體重指數（BMI）在一個圖中繪制三個直方圖，

df[['BMXWT', 'BMXHT', 'BMXBMI']].plot.hist(stacked=True, bins=20, fontsize=12, figsize=(10, 8))

但是如果你想要三個不同的直方圖，也可以只使用一行代碼，像這樣：

df[['BMXWT', 'BMXHT', 'BMXBMI']].hist(bins=20,figsize=(10, 8))

它可以更具活力！

我們在' BPXSY1 '列中有血壓資料，在' DMDEDUC2 '列中有教育程度資料，如果我們想檢查每個教育水平人群的血壓分布，也可以用一行代碼完成，

但在此之前，我想用更有意義的字串值替換'DMDEDUC2'列的數值：

df["DMDEDUC2x"] = df.DMDEDUC2.replace({1: "less than 9", 2: "9-11", 3: "HS/GED", 4: "Some college/AA", 5: "College", 7: "Refused", 9: "Don't know"})

現在做直方圖

df[['DMDEDUC2x', 'BPXSY1']].hist(by='DMDEDUC2x', figsize=(18, 12))

看！我們只需一行代碼就可以得到每個教育水平的血壓水平分布！

條形圖

現在讓我們看看血壓是如何隨婚姻狀況而變化的，這次我要做一個條形圖，與前面一樣，我將用更有意義的字串替換“DMDMARTL”列的數值，

df["DMDMARTLx"] = df.DMDMARTL.replace({1: "Married", 2: "Widowed", 3: "Divorced", 4: "Separated", 5: "Never married", 6: "Living w/partner", 77: "Refused"})

為了繪制條形圖，我們需要對資料進行預處理，即根據不同的婚姻狀況對資料進行分組，并取每組的平均值，這里我用同一行代碼處理資料和繪圖，

df.groupby('DMDMARTLx')['BPXSY1'].mean().plot(kind='bar', rot=45, fontsize=10, figsize=(8, 6))

這里我們使用“rot”引數將x記號旋轉45度，否則，他們會太混亂，

如果你愿意，你也可以把它弄平，

df.groupby('DMDEDUC2x')['BPXSY1'].mean().plot(kind='barh', rot=45, fontsize=10, figsize=(8, 6))

我想用多個變數繪制條形圖，我們有一個列，里面有人口的民族血統，看看人們的體重、身高和體重指數是否會隨民族血統而變化，這將是一件有趣的事，

為了繪制這個圖，我們需要將這三列（體重、身高和體重指數）按民族血統分組并取平均值，

df_bmx = df.groupby('RIDRETH1')['BMXWT', 'BMXHT', 'BMXBMI'].mean().reset_index()

這一次我沒有改變民族血統的資料，我保持數值不變，我們現在就開始吧，

df_bmx.plot(x = 'RIDRETH1', 
            y=['BMXWT', 'BMXHT', 'BMXBMI'], 
            kind = 'bar', 
            color = ['lightblue', 'red', 'yellow'], 
            fontsize=10)

看來第四種族比其他種族高一點，但他們都無顯著性差異，

我們也可以將不同的引數（體重、身高和體重指數）疊加在一起，

df_bmx.plot(x = 'RIDRETH1', 
            y=['BMXWT', 'BMXHT', 'BMXBMI'], 
            kind = 'bar', stacked=True,
            color = ['lightblue', 'red', 'yellow'], 
            fontsize=10)

餅圖

我想看看婚姻狀況和受教育程度有沒有關系，

我需要按教育程度對婚姻狀況進行分組，并按教育程度統計每個婚姻狀況組中的人口，聽起來太羅嗦了，對吧？讓我們看看：

df_edu_marit = df.groupby('DMDEDUC2x')['DMDMARTL'].count()
pd.Series(df_edu_marit)

使用此Series可以很容易地繪制餅圖：

ax = pd.Series(df_edu_marit).plot.pie(subplots=True, label='',
     labels = ['College Education', 'high school', 
     'less than high school', 'Some college',
     'HS/GED', 'Unknown'],
     figsize = (8, 6),
     colors = ['lightgreen', 'violet', 'coral', 'skyblue', 'yellow', 'purple'], autopct = '%.2f')

這里我添加了一些樣式引數，請隨時嘗試更多的樣式引數，

箱線圖

例如，我將使用體重指數、腿和臂長資料制作一個箱線圖，

color = {'boxes': 'DarkBlue', 'whiskers': 'coral', 
         'medians': 'Black', 'caps': 'Green'}
df[['BMXBMI', 'BMXLEG', 'BMXARML']].plot.box(figsize=(8, 6),color=color)

散點圖

對于一個簡單的散點圖，我想看看體重指數（“BMXBMI”）和血壓（“BPXSY1”）之間是否存在任何關系，

df.head(300).plot(x='BMXBMI', y= 'BPXSY1', kind = 'scatter')

我只使用了300個資料，因為如果我使用所有的資料，散點圖變得過于密集，無法理解，但可以使用alpha引數使其半透明，

現在，讓我們用同樣的一行代碼畫出一個稍微高級的散點圖，

這次我將添加一些顏色的陰影，我將繪制一個散點圖，把重量放在x軸上，把高度放在y軸上，

我還要加上腿的長度，但腿的長度會以陰影顯示，如果腿的長度較長，則陰影將較暗，否則陰影將較淺，

df.head(500).plot.scatter(x= 'BMXWT', y = 'BMXHT', c ='BMXLEG', s=50, figsize=(8, 6))

它顯示了體重和身高之間的關系，你可以看到腿的長度與身高和體重之間是否有任何關系，

另一種添加第三個引數的方法是增加粒子的大小，在這里，我把高度放在x軸上，重量在y軸上，體重指數作為粒子大小的指標，

df.head(200).plot.scatter(x= 'BMXHT', y = 'BMXWT', 
                          s =df['BMXBMI'][:200] * 7, 
                          alpha=0.5, color='purple',
                         figsize=(8, 6))

這里的小點表示BMI較低，較大的圓點表示BMI較高，

六邊形

這是另一種漂亮的視覺效果，點是六邊形，當資料太密集時，把它們放在箱子里是很有用的，如你所見，在前兩個圖中，我只使用了500和200個資料，因為如果我將所有資料放入資料集中，則繪圖變得過于密集，無法理解或從中獲取任何資訊，

在這種情況下，使用空間分布是非常有用的，我使用的是hexbin，資料將以六邊形表示，每一個六邊形都是一個代表箱子密度的箱子，下面是一個最基本的hexpin示例，

df.plot.hexbin(x='BMXARMC', y='BMXLEG', gridsize= 20)

在這里，較深的顏色表示較高的資料密度，而較淺的顏色表示較低的資料密度，

聽起來像直方圖嗎？是的，對吧？它用顏色表示，而不是直方圖，

如果我們增加一個額外的引數'C'，分布會改變，它不再像直方圖了，

引數“C”指定每個(x, y)坐標的位置，對每個六邊形箱子進行累加，然后使用reduce_C_function進行reduce，如果沒有指定reduce_C_function，默認情況下它使用np.mean，你可以把它定義為np.mean, np.max, np.sum, np.std等等

有關更多資訊，請參閱檔案：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.hexbin.html

下面是一個例子：

df.plot.hexbin(x='BMXARMC', y='BMXLEG', C = 'BMXHT',
                         reduce_C_function=np.max,
                         gridsize=15,
                        figsize=(8,6))

六邊形的深色意味著，np.max有一個更高的值，你可以看到我使用np.max作為reduce_C_function，我們可以使用顏色貼圖代替顏色的著色：

df.plot.hexbin(x='BMXARMC', y='BMXLEG', C = 'BMXHT',
                         reduce_C_function=np.max,
                         gridsize=15,
                        figsize=(8,6),
                        cmap = 'viridis')

看起來很漂亮，對吧？而且資訊量很大，

一些高級可視化

我在上面解釋了人們在日常生活中處理資料時使用的一些基本繪圖，但資料科學家還需要更多，pandas庫也有一些更高級的可視化，它可以在一行代碼中提供更多資訊，

散點矩陣

散點矩陣非常有用，它在一個圖中提供了大量的資訊，它可以用于一般的資料分析或機器學習中的特征工程，讓我們先看一個例子，之后我再解釋，

from pandas.plotting import scatter_matrix

scatter_matrix(df[['BMXWT', 'BMXHT', 'BMXBMI', 'BMXLEG', 'BMXARML']], alpha = 0.2, figsize=(10, 8), diagonal = 'kde')

我在這里使用了五個特征，我得到了所有五個變數之間的關系，在對角線中，它給出了每個單獨特征的密度圖，在我的下一個例子中，我們將進一步討論密度圖，

KDE或密度圖

構建KDE圖或核密度圖是為了提供資料幀中序列或列的概率分布，讓我們看看權重變數（“BMXWT”）的概率分布，

df['BMXWT'].plot.kde()

你可以在一個圖中看到幾個概率分布，在這里，我在同一個圖中給出了身高、體重和BMI的概率分布：

df[['BMXWT', 'BMXHT', 'BMXBMI']].plot.kde(figsize = (8, 6))

你也可以使用前面描述的其他樣式引數，我喜歡保持簡單，

Parallel_coordinates

這是一種顯示多維資料的好方法，它清楚地顯示了簇（如果有），例如，我想看看男性和女性在身高、體重和體重指數上是否有什么不同，讓我們檢查一下，

from pandas.plotting import parallel_coordinates

parallel_coordinates(df[['BMXWT', 'BMXHT', 'BMXBMI', 'RIAGENDR']].dropna().head(200), 'RIAGENDR', color=['blue', 'violet'])

你可以看到男性和女性在體重、身高和BMI上的明顯差異，這里，1是男人，2是女人，

Bootstrap_plot

這是一個非常重要的研究和統計分析圖，這將節省大量的統計分析時間，Bootstrap_plot用于評估給定資料集的不確定性，

此函式獲取指定大小的隨機樣本，然后計算該樣本的平均值、中位數和中位數，此程序重復指定次數，

這里我用BMI資料創建了一個Bootstrap_plot：

from pandas.plotting import bootstrap_plot

bootstrap_plot(df['BMXBMI'], size=100, samples=1000, color='skyblue')

這里，樣本量是100，樣本數是1000，所以，我們隨機抽取100個資料樣本來計算平均值、中位數和中位數，這個程序重復1000次，

對于統計學家和研究人員來說，這是一個極其重要的程序，也是一個節省時間的程序，

結論

我想為pandas的資料可視化制作一份備忘單，不過，如果使用matplotlib和seaborn，則有更多的選項或可視化型別，但是如果你處理資料，我們在日常生活中使用這些基本型別的可視化，將pandas用于此可視化將使你的代碼更簡單，并節省大量代碼，

原文鏈接：https://towardsdatascience.com/an-ultimate-cheat-sheet-for-data-visualization-in-pandas-4010e1b16b5c

歡迎關注磐創AI博客站：
http://panchuang.net/

sklearn機器學習中文官方檔案：
http://sklearn123.com/

歡迎關注磐創博客資源匯總站：
http://docs.panchuang.net/

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/212726.html

標籤：其他

上一篇：求助 pandas 匯出txt檔案時自帶雙引號怎么去除

下一篇：5個PyCaret的常見誤解