目錄
- 一:一些基本方法
- 1.歸約方法
- 2.積累型方法
- 3.其他方法
- 二:相關性和協方差
- 三:唯一值,計數和成員屬性
??pandas物件有一個常用數學,統計學方法的集合,大部分屬于歸納或匯總統計,這些方法從DataFrame的行或列中抽取一個Series或一系列的值,
??pandas的描述性統計的方法和NumPy的方法相比,內建了處理缺失值的功能,很好地針對于每一個我們需要處理的資料,
一:一些基本方法
1.歸約方法
??sum方法回傳一個包含列上加和的Series, 若傳入axis = 'columns'或axis = 1,將會把一行上各個列的值相加,會把缺失值自動排除,可以通過skipna = False設定禁用skipna來實作不排除缺失值,
??可用idxmin和idxmax,回傳間接統計資訊,比如最小值或最大值的索引值,
2.積累型方法
??有些方法是積累型方法,比如cumsum是回傳積累值,
3.其他方法
??還有一些不是歸約方法和積累型的方法,比如describe方法,一次性產生多個匯總統計值,

二:相關性和協方差
??一些匯總統計,是由多個引數計算出的,與之相關的是一個附加庫,是 pandas-datareader ,可以從Yahoo!Finance上獲取股價和交易量的二維DataFrame資料,
??用pct_change和tail獲得股價的百分比,
??函式corr方法是計算兩個物件重疊的,非NA的,按索引對其的值的相關性,相應地,cov計算的是協方差,
??用DataFrame的corrwith方法,可以計算出DataFrame中的行或列與另一個序列或DataFrame的相關性, 這個方法是一個歸約方法 ,傳入axis = 'columns'或者axis = 1則會對逐行進行操作,

三:唯一值,計數和成員屬性
??有些方法可以從資料中提取資訊,如下:
??函式unique會給出唯一值,可以用uniques.sort()進行排序,
??函式value_counts會計算資料中包含值的個數,默認會按照數量降序排列,可以通過設定sort = False不進行降序排列,
??函式isin可以檢查資料成員是否和引數匹配,并進行過濾,即去除未匹配的資料,
??而與之相關的Index.get_indexer方法,可以提供一個索引陣列,將可能非唯一陣列轉換為另一個唯一值陣列,
??函式pandas.value_counts可以計算DataFrame多個相關列的直方圖,得到的直方圖的行標簽是所有列出現的不同值,數值是不同值在每個列中出現的次數,

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/176794.html
標籤:Python
