作者|Rashida Nasrin Sucky
編譯|VK
來源|Towards Data Science
了解如何從直方圖和箱線圖中提取資訊
理解這些資料并不意味著只得到平均值、中位數和標準差,很多時候,了解資料的可變性、傳播或分布是很重要的,直方圖和箱線圖都有助于提供有關資料集的大量額外資訊,有助于理解資料,
直方圖
直方圖只從資料集中獲取一個變數,并顯示每次出現的頻率,我將使用一個簡單的資料集來學習直方圖如何幫助理解資料集,我會用python來制作圖片,匯入資料集:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
df = pd.read_csv("Cartwheeldata.csv")
df.head()

此資料集顯示Cartweel資料,假設,辦公室里的人決定去野餐時參加手推車距離競賽,上面的資料集顯示了結果,讓我們了解一下資料,
1.做一個“Age”的柱狀圖,
sns.distplot(df['Age'], kde =False).set_title("Histogram of age")

從上面的圖片可以看出,大多數人都在30歲以下,只有一個人39歲,一個人54歲,
2.查看“CWDistance”的分布
sns.distplot(df["CWDistance"], kde=False).set_title("Histogram of CWDistance")

很漂亮的階梯,很難說哪個波段的頻率最高,
3.有時將兩個分布圖一起繪制可以很好地理解,在同一圖中繪制“Height”和CWDistance”,
sns.distplot(df["Height"], kde=False)
sns.distplot(df["CWDistance"], kde=False).set_title("Histogram of height and score")

從這張照片上看,我們不能說高度和距離之間有關系,
現在看,我們可以從箱線圖中提取什么樣的資訊,
箱線圖
方框圖顯示了資料的分布和更詳細的資訊,它更清楚地顯示了例外值:最大值、最小值、四分位數(Q1)、第三四分位數(Q3)、四分位數范圍(IQR)和中值,你可以從IQR中計算出中間的50%,

它還提供了有關資料傾斜度、資料閉合程度和資料分布的資訊,
讓我們看一些使用Cartwheel資料的例子,
1.畫一個“Score”的箱線圖,
sns.boxplot(df["Score"])

從這個圖片,我們可以說,
-
分布是正態的
-
中位數是6
-
最低分是2分
-
最高分是8分
-
第一個四分位數(前25%)是4
-
第三個四分位數(75%)是8
-
中間50%的資料范圍是4到8,
-
四分位數的范圍是4,
2.在同一個箱線圖中繪制兩個變數有助于理解其中一個變數如何影響另一個變數,在同一個圖中繪制CWDistance和“Glasses”以查看Glasses是否對CWDistance有任何影響,
sns.boxplot(x = df["CWDistance"], y = df["Glasses"])

沒有戴眼鏡的人的中位數比戴眼鏡的人高,不戴眼鏡的人的總體范圍較低,但IQR值較高,
從上圖來看,IQR的范圍是72到94,但對于戴眼鏡的人來說,CWDistance的總體范圍更大,而IQR則在66到90之間,這比不戴眼鏡的人要小,
3.對于分別戴眼鏡和不戴眼鏡的人來說,CWDistance的柱狀圖可以提供更多的理解,
g = sns.FacetGrid(df, row = "Glasses")
g = g.map(plt.hist, "CWDistance")

從這張照片上看,戴眼鏡的人的最大頻率是在CWDistance的開始,glasses對CWDistance的影響還需要進一步的研究,建立一個置信區間可能會有幫助,
我希望這篇文章能給你一些關于箱線圖和柱狀圖的附加資訊,
更多閱讀建議:
-
置信區間、計算和特征:https://towardsdatascience.com/confidence-interval-calculation-and-characteristics-1a60fd724e1d
-
人口比例的置信區間和人口比例差異的計算:https://towardsdatascience.com/confidence-intervals-of-population-proportion-and-the-difference-in-python-6ab7faa0f255
-
均值和均值差的置信區間計算:https://towardsdatascience.com/how-to-calculate-confidence-interval-of-mean-and-the-difference-of-mean-993bfec0c968
原文鏈接:https://towardsdatascience.com/understanding-the-data-using-histogram-and-boxplot-with-example-425a52b5b8a6
歡迎關注磐創AI博客站:
http://panchuang.net/
sklearn機器學習中文官方檔案:
http://sklearn123.com/
歡迎關注磐創博客資源匯總站:
http://docs.panchuang.net/
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/10805.html
標籤:其他
上一篇:程式員常用docker命令
