這里從八個pandas的資料處理生命周期,整理匯總出pandas框架在整個資料處理程序中都是如何處理資料的,
【閱讀全文】
也就是從pandas的資料表物件以及資料匯總、資料統計等等直到資料匯出的八個處理程序來完成pandas使用的匯總處理,
首先,需要準備好將python非標準庫匯入進來,除了pandas之外一般伴隨資料分析處理使用的還有numpy科學計算庫,
# Importing the pandas library and giving it the alias pd.
import pandas as pd
# Importing the numpy library and giving it the alias np.
import numpy as np
1、資料表物件(DataFrame)
在pandas的資料分析處理中,主要依賴的是對DataFrame物件的處理來完成資料的提取、匯總、統計等操作,
那么在初始化DataFrame物件的時候有兩種方式,一種是直接讀取Excel、csv檔案獲取資料后回傳DataFrame資料物件,
# Reading the csv file and converting it into a dataframe.
dataframe_csv = pd.DataFrame(pd.read_csv('./data.csv'))
# Reading the excel file and converting it into a dataframe.
dataframe_xlsx = pd.DataFrame(pd.read_excel('./data.xlsx'))
另一種則是需要自己創建DataFrame物件的資料,將字典等型別的python物件直接初始化為DataFrame資料表的形式,
# Creating a dataframe with two columns, one called `name` and the other called `age`.
dataframe = pd.DataFrame({"編程語言": ['Java', 'Python', 'C++'],
"已誕生多少年": [23, 20, 28]},
columns=['編程語言', '已誕生多少年'])
2、資料表(DataFrame)結構資訊
通過DataFrame物件內置的各種函式來查看資料維度、列名稱、資料格式等資訊,
# Creating a dataframe with two columns, one called `name` and the other called `age`.
dataframe = pd.DataFrame({"編程語言": ['Java', 'Python', 'C++'],
"已誕生多少年": [23, 20, 28]},
columns=['編程語言', '已誕生多少年'])
【加粗】dataframe.info()
查看資料表的基本資訊展示,包括列數、資料格式、列名稱、占用空間等,
dataframe.info()
# <class 'pandas.core.frame.DataFrame'>
# Index: 0 entries
# Data columns (total 2 columns):
# # Column Non-Null Count Dtype
# --- ------ -------------- -----
# 0 編程語言 0 non-null object
# 1 已誕生多少年 0 non-null object
# dtypes: object(2)
# memory usage: 0.0+ bytes
【加粗】dataframe.columns
查看DataFrame物件的所有列的名稱,并回傳陣列資訊,
print('顯示所有列的名稱是:{0}'.format(dataframe.columns))
# 顯示所有列的名稱是:Index(['編程語言', '已誕生多少年'], dtype='object')
【加粗】dataframe['列名'].dtype
查看DataFrame物件中某一列的格式dtype是什么,
print('列名(編程語言)的格式是:{0}'.format(dataframe[u'編程語言'].dtype))
# 列名(編程語言)的格式是:object
【加粗】dataframe.shape
通過DataFrame物件的shape函式,進而展示出資料是幾行幾列的結構,
print('dataframe的結構是:{0}'.format(dataframe.shape))
# dataframe的結構是:(3, 2)
【加粗】dataframe.values
使用DataFrame物件的values函式,得出所有資料內容的結果,
# Importing the pprint function from the pprint module.
from pprint import pprint
pprint('dataframe物件的值是:{0}'.format(dataframe.values))
# "dataframe物件的值是:[['Java' 23]\n ['Python' 20]\n ['C++' 28]]"
3、資料清洗
資料清洗即是對DataFrame物件中的資料進行規范化的處理,比如空值的資料填充、重復資料的清理、資料格式的統一轉換等等,
【加粗】dataframe.fillna()
# 將所有資料為空的項填充為0
dataframe.fillna(value=https://www.cnblogs.com/lwsbc/p/0)
# 使用均值進行填充
dataframe[u'已誕生多少年'].fillna(dataframe[u'已誕生多少年'].mean())
【加粗】map(str.strip)
# 去除指定列的首尾多余的空格后,再重新賦值給所在列
dataframe[u'編程語言'] = dataframe[u'編程語言'].map(str.strip)
【加粗】dataframe.astype
# 更改DataFrame資料物件中某個列的資料格式,
dataframe[u'已誕生多少年'].astype('int')
【加粗】dataframe.rename
# 更改DataFrame資料物件中某個列的名稱
dataframe.rename(columns={u'已誕生多少年': u'語言年齡'})
【加粗】 dataframe.drop_duplicates
# 以DataFrame中的某個列為準,洗掉其中的重復項
dataframe[u'編程語言'].drop_duplicates()
【加粗】dataframe.replace
# 替換DataFrame資料物件中某個列中指定的值
dataframe[u'編程語言'].replace('Java', 'C#')
4、資料預梳理
資料預處理(data preprocessing)是指在主要的處理以前對資料進行的一些處理,
如對大部分地球物理面積性觀測資料在進行轉換或增強處理之前,首先將不規則分布的測網經過插值轉換為規則網的處理,以利于計算機的運算,
【加粗】資料合并
使用DataFrame物件資料合并的有四種方式可以選擇,分別是merge、append、join、concat方式,不同方式實作的效果是不同的,
接下來使用兩種比較常見的方式append、concat、join來演示一下DataFrame物件合并的效果,
使用兩個DataFrame的資料物件通過append將物件的資料內容進行合并,
# Creating a dataframe with two columns, one called `編程語言` and the other called `已誕生多少年`.
dataframeA = pd.DataFrame({"編程語言": ['Java', 'Python', 'C++'],
"已誕生多少年": [23, 20, 28]}, columns=['編程語言', '已誕生多少年'])
# Creating a dataframe with two columns, one called `編程語言` and the other called `已誕生多少年`.
dataframeB = pd.DataFrame({"編程語言": ['Scala', 'C#', 'Go'],
"已誕生多少年": [23, 20, 28]}, columns=['編程語言', '已誕生多少年'])
# Appending the dataframeB to the dataframeA.
res = dataframeA.append(dataframeB)
# Printing the result of the append operation.
print(res)
# 編程語言 已誕生多少年
# 0 Java 23
# 1 Python 20
# 2 C++ 28
# 0 Scala 23
# 1 C# 20
# 2 Go 28
#
# Process finished with exit code 0
使用兩個DataFrame的資料物件通過concat將物件的資料內容進行合并,
# Concatenating the two dataframes together.
res = pd.concat([dataframeA, dataframeB])
# Printing the result of the append operation.
print(res)
# 編程語言 已誕生多少年
# 0 Java 23
# 1 Python 20
# 2 C++ 28
# 0 Scala 23
# 1 C# 20
# 2 Go 28
concat函式的合并效果和append函式有異曲同工之妙,兩者同樣都是對資料內容進行縱向合并的,
使用兩個DataFrame的資料物件通過join將物件的資料結構及資料內容進行橫向合并,
# Creating a dataframe with two columns, one called `編程語言` and the other called `已誕生多少年`.
dataframeC = pd.DataFrame({"編程語言": ['Java', 'Python', 'C++'],
"已誕生多少年": [23, 20, 28]}, columns=['編程語言', '已誕生多少年'])
# Creating a dataframe with one column called `歷史表現` and three rows.
dataframeD = pd.DataFrame({"歷史表現": ['A', 'A', 'A']})
# Joining the two dataframes together.
res = dataframeC.join(dataframeD, on=None)
# Printing the result of the append operation.
print(res)
# 編程語言 已誕生多少年 歷史表現
# 0 Java 23 A
# 1 Python 20 A
# 2 C++ 28 A
可以發現使用join的函式之后,將dataframeD作為一個列擴展了并且對應的每一行都準確的填充了資料A,
【加粗】設定索引
給DataFrame物件設定索引的話就比較方便了,直接DataFrame物件提供的set_index函式設定需要定義索引的列名稱就OK了,
# Creating a dataframe with two columns, one called `編程語言` and the other called `已誕生多少年`.
dataframeE = pd.DataFrame({"編程語言": ['Java', 'Python', 'C++'],
"已誕生多少年": [23, 20, 28]}, columns=['編程語言', '已誕生多少年'])
# Setting the index of the dataframe to the column `編程語言`.
dataframeE.set_index(u'編程語言')
# Printing the dataframeE.
print(dataframeE)
# 編程語言 已誕生多少年
# 0 Java 23
# 1 Python 20
# 2 C++ 28
【加粗】資料排序
DataFrame資料物件的排序主要是通過索引排序、某個指定列排序的方式為參照完成對DataFrame物件中的整個資料內容排序,
# Sorting the dataframeE by the index.
res = dataframeE.sort_index()
# Printing the res.
print(res)
# 編程語言 已誕生多少年
# 0 Java 23
# 1 Python 20
# 2 C++ 28
# Sorting the dataframeE by the column `已誕生多少年`.
res = dataframeE.sort_values(by=['已誕生多少年'], ascending=False)
# Printing the res.
print(res)
# 編程語言 已誕生多少年
# 2 C++ 28
# 0 Java 23
# 1 Python 20
sort_index函式是指按照當前DataFrame資料物件的索引進行排序,sort_values則是按照指定的一個或多個列的值進行降序或者升序,
【加粗】資料分組
資料預處理中的資料分組主要是需要的分組的資料打上特殊的標記以便于后期對資料的歸類處理,
比較簡單一些的分組處理可以使用numpy中提供的函式進行處理,這里使用numpy的where函式來設定過濾條件,
# Creating a new column called `分組標記(高齡/低齡)` and setting the value to `高` if the value in the column `已誕生多少年` is greater
# than or equal to 23, otherwise it is setting the value to `低`.
dataframeE['分組標記(高齡/低齡)'] = np.where(dataframeE[u'已誕生多少年'] >= 23, '高', '低')
# Printing the dataframeE.
print(dataframeE)
# 編程語言 已誕生多少年 分組標記(高齡/低齡)
# 0 Java 23 高
# 1 Python 20 低
# 2 C++ 28 高
稍微復雜一些的過濾條件可以使用多條件的過濾方式找出符合要求的資料項進行分組標記,
# Creating a new column called `分組標記(高齡/低齡,是否是Java)` and setting the value to `高/是` if the value in the column `已誕生多少年` is
# greater than or equal to 23 and the value in the column `編程語言` is equal to `Java`, otherwise it is setting the value to
# `低/否`.
dataframeE['分組標記(高齡/低齡,是否是Java)'] = np.where((dataframeE[u'已誕生多少年'] >= 23) & (dataframeE[u'編程語言'] == 'Java'), '高/是',
'低/否')
# Printing the dataframeE.
print(dataframeE)
# 編程語言 已誕生多少年 分組標記(高齡/低齡) 分組標記(高齡/低齡,是否是Java)
# 0 Java 23 高 高/是
# 1 Python 20 低 低/否
# 2 C++ 28 高 低/否
5、提取資料
資料提取即是對符合要求的資料完成提取操作,DataFrame物件提取資料主要是按照標簽值、標簽值和位置以及資料位置進行提取,
DataFrame物件按照位置或位置區域提取資料,這里所說的位置其實就是DataFrame物件的索引,
基本上所有的操作都能夠使用DataFrame物件的loc函式、iloc函式這兩個函式來實作操作,
提取索引為2的DataFrame物件對應的行資料,
# Selecting the row with the index of 2.
res = dataframeE.loc[2]
# Printing the result of the operation.
print(res)
# 編程語言 C++
# 已誕生多少年 28
# 分組標記(高齡/低齡) 高
# 分組標記(高齡/低齡,是否是Java) 低/否
# Name: 2, dtype: object
提取索引0到1位置的所有的行資料,
# Selecting the rows with the index of 0 and 1.
res = dataframeE.loc[0:1]
# Printing the result of the operation.
print(res)
# 編程語言 已誕生多少年 分組標記(高齡/低齡) 分組標記(高齡/低齡,是否是Java)
# 0 Java 23 高 高/是
# 1 Python 20 低 低/否
按照前兩行前兩列的資料區域提取資料,
# 注意這里帶有冒號:的iloc函式用法效果是和前面不一樣的,
# Selecting the first two rows and the first two columns.
res = dataframeE.iloc[:2, :2]
# Printing the result of the operation.
print(res)
# 編程語言 已誕生多少年
# 0 Java 23
# 1 Python 20
提取符合條件的資料項,對某一列資料中指定的值完成提取,
# 提取出編程語言這個列中資料內容是Java、C++的資料行,
# Selecting the rows where the value in the column `編程語言` is either `Java` or `C++`.
res = dataframeE.loc[dataframeE[u'編程語言'].isin(['Java', 'C++'])]
# Printing the result of the operation.
print(res)
# 編程語言 已誕生多少年 分組標記(高齡/低齡) 分組標記(高齡/低齡,是否是Java)
# 0 Java 23 高 高/是
# 2 C++ 28 高 低/否
6、篩選資料
篩選資料是資料處理整個生命周期中的最后一個對原有資料的提取操作,通過各種邏輯判斷條件的操作來完成資料篩選,
這里分別通過使用DataFrame物件的'與'、'或'、'非'三種常用的邏輯判斷來實作下面的資料篩選操作,
# Creating a dataframe with two columns, one called `編程語言` and the other called `已誕生多少年`.
dataframeF = pd.DataFrame({"編程語言": ['Java', 'Python', 'C++'],
"已誕生多少年": [23, 20, 28]}, columns=['編程語言', '已誕生多少年'])
res = dataframeF.loc[(dataframeF[u'已誕生多少年'] > 25) & (dataframeF[u'編程語言'] == 'C++'), [u'編程語言', u'已誕生多少年']]
# Printing the result of the operation.
print(res)
# 編程語言 已誕生多少年
# 2 C++ 28
res = dataframeF.loc[(dataframeF[u'已誕生多少年'] > 23) | (dataframeF[u'編程語言'] == 'Java'), [u'編程語言', u'已誕生多少年']]
# Printing the result of the operation.
print(res)
# 編程語言 已誕生多少年
# 0 Java 23
# 2 C++ 28
res = dataframeF.loc[(dataframeF[u'編程語言'] != 'Java'), [u'編程語言', u'已誕生多少年']]
# Printing the result of the operation.
print(res)
# 編程語言 已誕生多少年
# 1 Python 20
# 2 C++ 28
7、資料匯總
資料匯總通常是使用groupby函式對一個或多個列名稱進行分組,再使用count函式統計分組后的數目,
res = dataframeF.groupby(u'編程語言').count()
# Printing the result of the operation.
print(res)
# 已誕生多少年
# 編程語言
# C++ 1
# Java 1
# Python 1
res = dataframeF.groupby(u'編程語言')[u'已誕生多少年'].count()
# Printing the result of the operation.
print(res)
# 編程語言
# C++ 1
# Java 1
# Python 1
# Name: 已誕生多少年, dtype: int64
res = dataframeF.groupby([u'編程語言',u'已誕生多少年'])[u'已誕生多少年'].count()
# Printing the result of the operation.
print(res)
# 編程語言 已誕生多少年
# C++ 28 1
# Java 23 1
# Python 20 1
# Name: 已誕生多少年, dtype: int64
8、資料統計
資料統計的概念基本上和數學上的思路是一樣的,首先是對資料進行采樣,采樣完成計算相關的標準差、協方差等相關的資料指標,
'''按照采樣不放回的方式,隨機獲取DataFrame物件中的兩條資料'''
res = dataframeF.sample(n=2, replace=False)
# Printing the result of the operation.
print(res)
# 編程語言 已誕生多少年
# 0 Java 23
# 1 Python 20
可以發現每次執行之后都會隨機的從DataFrame的資料表中取出兩條資料,
若是采樣放回的方式時則可以將replace的屬性設定為True即可,
# 計算出DataFrame物件的所有列的協方差
res = dataframeF.cov()
# Printing the result of the operation.
print(res)
# 已誕生多少年
# 已誕生多少年 16.333333
# 計算出DataFrame物件相關性
res = dataframeF.corr()
# Printing the result of the operation.
print(res)
# 已誕生多少年
# 已誕生多少年 1.0
以上就是Python資料處理中整個生命周期資料的處理程序以及常見的各個資料處理程序中的常見處理方式,
感謝大家一直以來的陪伴,Python集中營將會繼續努力創作出更好的內容,感謝大家的閱讀!
【往期推薦】
python中的精度計算應該用什么,類似Java中的Bigdecimal物件!
如何將Excel中全國各省份人口資料繪制成地域分布圖?
周末自制了一個批量圖片水印添加器!
歡迎關注作者公眾號【Python 集中營】,專注于后端編程,每天更新技術干貨,不定時分享各類資料!轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/518713.html
標籤:Python
