Pandas

一、介紹

Pandas的名稱來自于面板資料（panel data）和Python資料分析（data analysis）， Pandas是一個強大的分析結構化資料的工具集，基于NumPy構建，提供了高級資料結構和資料操作工具，它是使Python成為強大而高效的資料分析環境的重要因素之一，

一個強大的分析和操作大型結構化資料集所需的工具集
基礎是NumPy，提供了高性能矩陣的運算
提供了大量能夠快速便捷地處理資料的函式和方法
應用于資料挖掘，資料分析
提供資料清洗功能

對于資料來說，首先的操作是對資料的清洗，包括缺失值，非法值，Nan值的處理，以及資料型別的轉換，前期對資料的清洗會花費較長的時間，這樣后期對資料的處理將十分的方便，

二、資料結構及基本操作

1. Series

Series是一種類似于一維陣列的物件，組成，
一組資料（各種NumPy資料型別）,組與之對應的索引（資料標簽）,
索引(index)在左
資料(values)在右
索引是自動創建

1.1 通過list構建Series

import pandas as pd
# 不指定索引，默認是從0開始
# ser_obj  = pd.Series(range(1,5))

# 指定索引
ser_obj = pd.Series(range(1，6), index = ['a', 'b', 'c', 'd', 'e'])
# 查看前3行資料
ser_obj.head(3)

1.2 通過dict構建Series

import pandas as pd
# 字典的鍵為對應Series中的索引，字典的值為對應Series中的值
dict = {"first":"人生苦短，我用Python","second":"hello","third":"word"}
ser_obj = pd.Series(dict)
print(ser_obj)
# 輸出索引
print(ser_obj.index)
# 輸出資料
print(ser_obj.values)

# 根據位置獲取資料
print(ser_obj[1])
# 根據索引獲取資料
print(ser_obj["second"])
# 支持連續切片操作，此時的切片操作是基于行
print(ser_obj[1:3])
# 支持不連續切片，  此時的切片操作是基于列
print(ser_obj[["first","third"]])

2. DataFrame

一個表格型的資料結構，它含有一組有序的列，每列可以是不同型別的值，DataFrame既有行索引也有列索引，資料是以二維結構存放的，
類似多維陣列/表格資料 (如，excel, R中的data.frame)
每列資料可以是不同的型別
索引包括列索引和行索引

2.1 通過numpy.ndarray構建DataFrame

import numpy as np
import pandas as pd
arr_obj = np.random.rand(3,4)
df_obj = pd.DataFrame(arr_obj)
print(df_obj)
# 查看前兩行
print(df_obj.head(2))

2.2 通過dict構建DataFrame

(a) 使用numpy自定義資料

dict = {
    "A":1,
    "B":pd.Timestamp("20200101"),
    "C":pd.Series(range(10,14),dtype="float64"),
    "D":["python","java","c++","c"],
    "E":np.array([3] *4,dtype="int32"),
    "F":"上海"
}
df_obj = pd.DataFrame(dict)
print(df_obj)

# 增加新的一列資料
df_obj["new_col"] = np.arange(1,5)
print(df_obj)

# 支持數學運算
df_obj["second_new_col"] = df_obj["new_col"] + 12
print(df_obj)

# 洗掉列，使用列名稱
del df_obj["E"]

(b) dict初始化資料

data = {'a':[11,22,33],'b':[44,55,66]}
test = pd.DataFrame(data)
test

? 自定義index和data

import pandas as pd
import numpy as np

data = ["a", "b", "c", "d", "e", "f"]
index = np.arange(1, 7)
columns = ["test"]
# 自定義列名
df = pd.DataFrame(data, index,columns=columns)
print(df)

(d) 定義多維DataFrame

df_obj = pd.DataFrame(np.random.randn(5,4), columns = ['a', 'b', 'c', 'd'])

三、Pandas高級索引

Serics和DataFrame兩個資料型別的操作基本一致，索引只在Series中操作，沒有在DataFrame中操作，

因為兩者的差別不大，

Serics支持串列切片索引（連續切片索引，行索引）和列名索引（可以選擇不連續的列，選擇的列存放在一個串列內，列索引）

import pandas as pd
# 字典的鍵為對應Series中的索引，字典的值為對應Series中的值
dict = {"first":"人生苦短，我用Python","second":"hello","third":"word"}
ser_obj = pd.Series(dict)
# 支持連續切片操作，此時的切片操作，依據是行
print(ser_obj[1:3])
# 列索引，串列
print(ser_obj[["first","third"]])

DataFrame
```
df_obj = pd.DataFrame(np.random.randn(5,4), columns = ['a', 'b', 'c', 'd'])
print(df_obj[1:3])
print(df_obj[["a","c"]])
```
如果想獲取前三行的b、c兩列資料，DateFramed的基礎功能實作起來就復雜了

需要使用DataFrame物件的高級索引

下面講解Pandas高級索引方式

? 高級索引：標簽、位置和混合

1. loc標簽索引

? loc是基于標簽名的索引，也就是我們自定義的索引名

? 依舊使用上面的案列，獲取前三行的b、c兩列資料

df_obj = pd.DataFrame(np.random.randn(5,4), columns = ['a', 'b', 'c', 'd'])
# 不連續索引
print(df_obj.loc[:2,["b","c"])
# 連續索引
print(df_obj.loc[:2,"b":"c"])

2. iloc標簽索引

? loc是基于編號的索引

? 依舊使用上面的案列，獲取前三行的b、c兩列資料

df_obj = pd.DataFrame(np.random.randn(5,4), columns = ['a', 'b', 'c', 'd'])
print(df_obj.iloc[0:2, 0:3])

3. ix 標簽與位置混合索引

ix是以上二者的綜合，既可以使用索引編號，又可以使用自定義索引，要視情況不同來使用
如果索引既有數字又有英文，容易導致定位的混亂，那么這種方式不建議使用的

此方式容易出錯，盡量使用

四、 Pandas對齊操作

對齊操作是資料清洗的重要程序，可以按索引對齊進行運算
如果沒對齊的位置則補NaN
add，sub，mul，div，加減乘除

1. Series

ser_obj1 = pd.Series(range(10, 20), index = range(10))
ser_obj2 = pd.Series(range(20, 25), index = range(5))
# 此時的加法操作，后面5個資料為Nan
# print(ser_obj1 + ser_obj2)
print(ser_obj1.add(ser_obj2))

這樣的操作可能會對資料造成不可誤差，因此使用fill_value屬性

ser_obj1 = pd.Series(range(10, 20), index = range(10))
ser_obj2 = pd.Series(range(20, 25), index = range(5))
# 使用默認的值
print(ser_obj1.add(ser_obj2,fill_value=0))

2. DataFrame

df_obj1 = pd.DataFrame(np.ones((2,2)),columns = ['a','b'])
df_obj2 = pd.DataFrame(np.ones((3,3)),columns = ['a','b','c'])
print(dfdf_obj11.add(df_obj2,fill_value = 0))

五、Pandas函式應用

在numpy里，可以對陣列里的每一個元素進行操作的函式稱為ufunc 通用函式（universal function）
在Pandas里可以直接使用Numpy的ufunc

1. 直接使用Numpy中的函式

范例

df = pd.DataFrame(np.random.randn(5,4) - 1)
print(df)
print(np.abs(df))

2. 通過apply將函式應用到行或者列

axis引數可以指定軸向

默認值為0，方向是列
值為1，方向是行

df = pd.DataFrame(np.random.randn(5,4))
# lambda函式，回傳最大值
f = lambda x : x.max()
# axis默認為列方向
print(df.apply(lambda x : x.max()))
# 行方向
print(df.apply(lambda x : x.max(), axis=1))

3. applymap函式映射到整個DataFrame物件

df = pd.DataFrame(np.random.randn(5,4))
print(df)
f1 = lambda x : '%.2f' % x
print(df.applymap(f1))
f2 = lambda x: x+x
print(df.applymap(f2))

六、排序

1. 索引排序

(a) Series

ser_obj2 = pd.Series(range(10, 15), index = np.random.randint(5, size=5))
print(ser_obj2) 
# 默認升序
print(ser_obj2.sort_index())
# 降序排序
print(ser_obj2.sort_index(ascending = False))

(b) DataFrame

df_obj = pd.DataFrame(np.random.randn(3, 5),
                      index=np.random.randint(3, size=3),
                      columns=np.random.randint(5, size=5))
print(df_obj)
# 修改axis和accending兩個引數，可以改變行、列排序和升序、降序
df_obj_sort = df_obj.sort_index(axis=0, ascending=False)
print(df_obj_sort)

2. 值排序

(a) Series

ser_obj = pd.Series(np.random.randint(10,20,size= 10))
print(ser_obj)
# 默認升序
print(ser_obj.sort_values()) 
# 降序
print(ser_obj.sort_values(ascending = False))

(b) DaraFrame

df4 = pd.DataFrame(np.random.randn(3, 5),
                   index=np.random.randint(2, size=3),
                   columns=np.random.randint(4, size=5))
print(df4)
# by引數
# 行索引，直接使用行號
# 列索引，使用串列
print(df4.sort_values(by=[1, ], ))

七、缺失值和Nan值處理

df_obj = pd.DataFrame([
    [1, 2, np.nan, np.nan],
    [np.nan, 3, 4, np.nan],
    list(range(4))])
print(df_obj)
# 回傳布林值矩陣
print(df_obj.isnull())
# 洗掉Nan值所在行列，axis=1列, axis=0行
print(df_obj.dropna(axis=1))
# 將Nan值替換為設定值
print(df_obj.fillna(0))

八、層級索引

存在兩層及其以上的索引層級，如下的格式，

a  0   -0.816360
   1   -0.459840
   2    0.664878
b  0    0.039940
   1    1.049324
   2   -0.525796
c  0   -1.887801
   1    1.361369
   2    0.120353
d  0   -1.432332
   1    0.143934
   2    0.320637

利用代碼方式生成層級Series物件

ser_obj = pd.Series(np.random.randn(12),
                    index=[['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'c', 'd', 'd', 'd'],
                           [0, 1, 2] * 4])

print(type(ser_obj.index))
# <class 'pandas.core.indexes.multi.MultiIndex'>

可以用for回圈的方式查看ser_obj.index，這樣便于理解層級索引的概念，

獲取元素的方式與單層結構的Series和DataFrame基本一致

# 獲取所有a索引的資料
print(ser_obj["a"])
# 獲取a索引下的第一個資料
print(np.round(ser_obj["a"][0], 6))
# 獲取第一層索引下的第一條資料 
print(ser_obj[:,1])

九、 Pandas統計計算

describe() 產生資料集的資料描述
統計了每一列的個數，平均值，標準差，最小值，分位數的分布，最大值等

df_obj = pd.DataFrame(np.random.randn(5, 4), columns=['a', 'b', 'c', 'd'])
print(df_obj)
print(df_obj.describe())

常用方法

方法	說明
count	非NA值的數量
describe	針對Series和DataFrame列計算統計
min、max	計算最值
argmin、argmax	計算能夠獲取到的最值索引位置
idxmin、idxmax	計算能夠獲取到的最值索引值
sum	樣本求和
mean	樣本平均數
median	樣本中位數
var	樣本方差
std	樣本標準差

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/66671.html

標籤：其他

上一篇：Python處理OpenStreetMap(OSM)資料

下一篇：用python做一個簡單的猜拳游戲

Pandas基本常用操作

Pandas

一、 介紹

二、 資料結構及基本操作

1. Series

1.1 通過list構建Series

1.2 通過dict構建Series

2. DataFrame

2.1 通過numpy.ndarray構建DataFrame

2.2 通過dict構建DataFrame

(a) 使用numpy自定義資料

(b) dict初始化資料

? 自定義index和data

(d) 定義多維DataFrame

三、Pandas高級索引

1. loc標簽索引

2. iloc標簽索引

3. ix 標簽與位置混合索引

四、 Pandas對齊操作

1. Series

2. DataFrame

五、Pandas函式應用

1. 直接使用Numpy中的函式

2. 通過apply將函式應用到行或者列

3. applymap函式映射到整個DataFrame物件

六、排序

1. 索引排序

(a) Series

(b) DataFrame

2. 值排序

(a) Series

(b) DaraFrame

七、缺失值和Nan值處理

八、層級索引

九、 Pandas統計計算

一、介紹

二、資料結構及基本操作