折線圖:
折線圖用于顯示資料在一個連續的時間間隔或者時間跨度上的變化,它的特點是反映事物隨時間或有序類別而變化的趨勢,示例圖如下:
折線圖應用場景:
- 折線圖適合X軸是一個連續遞增或遞減的,對于沒有規律的,則不適合使用折線圖,建議使用柱狀圖,
- 如果折線圖條數過多,則不應該都繪制在一個圖上,
柱狀圖:
典型的柱狀圖(又名條形圖),使用垂直或水平的柱子顯示類別之間的數值比較,其中一個軸表示需要對比的分類,另一個軸代表相應的數值,
柱狀圖有別于直方圖,柱狀圖無法顯示資料在一個區間內的連續變化趨勢,柱狀圖描述的是分類資料,回答的是每一個分類中“有多少?”這個問題, 示例圖如下:
柱狀圖應用場景:
-
適用于分類資料對比,
-
垂直條形圖最多不超過12個分類(也就是12個柱形),橫向條形圖最多不超過30個分類,如果垂直條形圖的分類名太長,那么建議換成橫向條形圖,
-
柱狀圖不適合表示趨勢,如果想要表示趨勢,應該使用折線圖,
直方圖:
直方圖(Histogram),又稱質量分布圖,是一種統計報告圖,由一系列高度不等的條紋表示資料分布的情況,一般用橫軸表示資料型別,縱軸表示分布情況, 直方圖是數值資料分布的精確圖形表示,為了構建直方圖,第一步是將值的范圍分段,即將整個值的范圍分成一系列間隔,然后計算每個間隔中有多少值,這些值通常被指定為連續的,不重疊的變數間隔,間隔必須相鄰,并且通常是(但不是必須的)相等的大小,
直方圖的應用場景:
- 顯示各組資料數量分布的情況,
- 用于觀察例外或孤立資料,
- 抽取的樣本數量過小,將會產生較大誤差,可信度低,也就失去了統計的意義,因此,樣本數不應少于50個,
散點圖:
散點圖也叫 X-Y 圖,它將所有的資料以點的形式展現在直角坐標系上,以顯示變數之間的相互影響程度,點的位置由變數的數值決定,
通過觀察散點圖上資料點的分布情況,我們可以推斷出變數間的相關性,如果變數之間不存在相互關系,那么在散點圖上就會表現為隨機分布的離散的點,如果存在某種相關性,那么大部分的資料點就會相對密集并以某種趨勢呈現,資料的相關關系主要分為:正相關(兩個變數值同時增長)、負相關(一個變數值增加另一個變數值下降)、不相關、線性相關、指數相關等,表現在散點圖上的大致分布如下圖所示,那些離點集群較遠的點我們稱為離群點或者例外點,
散點圖的應用場景:
- 觀察資料集的分布情況,
- 通過分析規律,根據樣本資料特征計算出回歸方程,
餅狀圖:
餅狀圖通常用來描述量、頻率和百分比之間的關系,在餅圖中,每個扇區的弧長大小為其所表示的數量的比例,
餅狀圖的應用場景:
- 展示多個分類的占比情況,分類數量建議不超過9個,
- 對于一些占比值非常接近的,不建議使用餅狀圖,可以使用柱狀圖,
箱線圖:
箱線圖(Box-plot)又稱為盒須圖、盒式圖或箱型圖,是一種用作顯示一組資料分散情況資料的統計圖,因形狀如箱子而得名,在各種領域也經常被使用,它主要用于反映原始資料分布的特征,還可以進行多組資料分布特征的比較,箱線圖的繪制方法是:先找出一組資料的上限值、下限值、中位數(Q2)和下四分位數(Q1)以及上四分位數(Q3);然后,連接兩個四分位數畫出箱子;再將最大值和最小值與箱子相連接,中位數在箱子中間,
四分位數(Quartile)也稱四分位點,是指在統計學中把所有數值由小到大排列并分成四等份,處于三個分割點位置的數值,多應用于統計學中的箱線圖繪制,它是一組資料排序后處于25%和75%位置上的值,四分位數是通過3個點將全部資料等分為4部分,其中每部分包含25%的資料,很顯然,中間的四分位數就是中位數,因此通常所說的四分位數是指處在25%位置上的數值(稱為下四分位數)和處在75%位置上的數值(稱為上四分位數),與中位數的計算方法類似,根據未分組資料計算四分位數時,首先對資料進行排序,然后確定四分位數所在的位置,該位置上的數值就是四分位數,與中位數不同的是,四分位數位置的確定方法有幾種,每種方法得到的結果會有一定差異,但差異不會很大,
上限的計算規則是: IQR=Q3-Q1 上限=Q3+1.5IQR 下限=Q1-1.5IQR
箱線圖的應用場景:
- 直觀明了地識別資料中的例外值,
- 利用箱線圖判斷資料的偏態,
- 利用箱線圖比較幾批資料的形狀,
- 箱線圖適合比較多組資料,如果知識要看一組資料的分布情況,建議使用直方圖,
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/274672.html
標籤:其他
