資料特征分析與資料質量分析一道構成資料探索的兩方面作業,在前文中介紹過關于資料質量分析的概況,本文將對資料特征分析作簡介,并著重于分布分析的角度,相比于資料質量分析,資料特征分析更注重于找尋資料間的關系,
資料特征分析包括以下幾個分析角度:
1、分布分析
2、對比分析
3、統計量分析
4、帕累托分析
5、正態性檢驗
6、相關性分析
其上每一個分析角度都有豐富的內容,
分布分析
顧名思義,分布分析研究資料的分布特征和分布型別,對于定量資料,需要了解分布形式,發現某些特大特小的例外值,通常用到散點圖,頻率分布直方圖,莖葉圖等;對于定性資料,可用餅圖或和條形圖顯示分布情況,
1 定量資料
對于定量資料列,可以從以下步驟獲取其分布形式
1 求極差
2 求適當的分組區間
3 計算各組頻率
4 繪制頻率分布直方圖
當然對于python而言,可以使用內置方法直接將輸入的資料轉換為直方圖:
將資料轉為dataframe形式,對其中某一列使用hist()方法,該函式的引數為需要的分組數,可以手動調至合適的分組數,

2 定性資料
對于定性資料,一般可以使用餅圖展示其分布狀況:

注意:輸入上圖中函式的資料是統計頻數后整理好的,如例中一樣,將三個類別的數量統計之后的結果串列作為輸入資料,
3 counter函式
上面提到繪制餅圖的資料是需要頻數統計處理的,那么就需要了解python庫函式counter,可以用它方便地進行頻數統計:

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/181243.html
標籤:Python
上一篇:記一次不正經的爬蟲學習經歷
