python資料分析學習(5)pandas描述性統計的概述與計算-有解無憂

一：一些基本方法
1.歸約方法
2.積累型方法
3.其他方法
二：相關性和協方差
三：唯一值，計數和成員屬性

??pandas物件有一個常用數學，統計學方法的集合，大部分屬于歸納或匯總統計，這些方法從DataFrame的行或列中抽取一個Series或一系列的值，
??pandas的描述性統計的方法和NumPy的方法相比，內建了處理缺失值的功能，很好地針對于每一個我們需要處理的資料，

一：一些基本方法

1.歸約方法

??sum方法回傳一個包含列上加和的Series，若傳入axis = 'columns'或axis = 1，將會把一行上各個列的值相加，會把缺失值自動排除，可以通過skipna = False設定禁用skipna來實作不排除缺失值，

??可用idxmin和idxmax，回傳間接統計資訊，比如最小值或最大值的索引值，

2.積累型方法

??有些方法是積累型方法，比如cumsum是回傳積累值，

3.其他方法

??還有一些不是歸約方法和積累型的方法，比如describe方法，一次性產生多個匯總統計值，

二：相關性和協方差

??一些匯總統計，是由多個引數計算出的，與之相關的是一個附加庫，是 pandas-datareader ，可以從Yahoo!Finance上獲取股價和交易量的二維DataFrame資料，

??用pct_change和tail獲得股價的百分比，

??函式corr方法是計算兩個物件重疊的，非NA的，按索引對其的值的相關性，相應地，cov計算的是協方差，

??用DataFrame的corrwith方法，可以計算出DataFrame中的行或列與另一個序列或DataFrame的相關性，這個方法是一個歸約方法，傳入axis = 'columns'或者axis = 1則會對逐行進行操作，

三：唯一值，計數和成員屬性

??有些方法可以從資料中提取資訊，如下：

??函式unique會給出唯一值,可以用uniques.sort()進行排序，

??函式value_counts會計算資料中包含值的個數,默認會按照數量降序排列，可以通過設定sort = False不進行降序排列，

??函式isin可以檢查資料成員是否和引數匹配，并進行過濾，即去除未匹配的資料，

??而與之相關的Index.get_indexer方法，可以提供一個索引陣列，將可能非唯一陣列轉換為另一個唯一值陣列，

??函式pandas.value_counts可以計算DataFrame多個相關列的直方圖，得到的直方圖的行標簽是所有列出現的不同值，數值是不同值在每個列中出現的次數，

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/176794.html

標籤：Python

上一篇：python基礎學習day4list

下一篇：Python3標準庫：linecache高效讀取文本檔案