寫在前面，我也是一名python學習小白，從最近開始學習Python，由于之前沒有編程基礎，學習起來比較費勁，大部分時間都是從網上看寫教學視頻，一邊學習，一邊操作，但是大部分情況都是學完就忘，真正讓自己寫代碼時，又總是依賴百度，進步很慢，最近也在通過學習Python的資料處理包-pandas，分享一些自己在實際學習程序中練習的一些代碼，由于是類似比較，所以會有很多注釋，幫助自己記憶的，【代碼內容是可以直接復制到Pycharm中直接運行的】  ---如需轉載，請注明出處，謝謝，[來自我的知乎：](https://www.zhihu.com/column/c_1293672028898172928)

import pandas as pd
import numpy as np

第一部分：Pandas -Series資料處理

#pd.Series(data=list,index=[ ],name=”“) 創建：
#通過字典創建：
dic={“a”:[1,2,3],“b”:[4,5,6],“c”:[7,8,9]}
s1 = pd.Series(data=dic,name=“Random_num”) #通過字典來創建Series，字典的Key為index（由于dict中key值不允許重復，所以不會有重復index），value為Series的value
#通過字典創建Series也可以指定index，如果指定的index與字典中key不一致，則會按照指定的index進行添加，value值會填充為NaN

#通過串列創建：
list1=[1,2,3,4]
s2 = pd.Series(data=list1,index=[“a”,“e”,“f”,“g”],name=“Random”) #通過串列來創建Series，可以指定index（可以重復），如果不指定默認按0-整數作為index

#獲取Series的name
s1.name
#獲取Series的index
s1.index

#Series中增加資料：append(to_append,ignore_index=False) to_append為字典或Series，添加后不會改變原Series的內容，
#通過Series或dict來增加
s3 = s1.append(s2,ignore_index=True) #默認為False，添加什么就顯示什么， True表示為添加后的Series重新進行賦index值0-
s3 = s2.append(pd.Series({“h”:45})) #其實括號中的字典已經被轉換成Series再添加，所以append添加Series也是只能添加Series型別，

#向Series中添加other物件，add(other, level=None, fill_value=None, axis=0)
#使用add添加物件時，Series中必須為數字型別，否則會報錯，
s2.add(5) #就是在s2中每個value值都增加5，
s4= s3.add(s2,fill_value=10) #如果兩個Series有相同的index，那么相同的index的值會直接相加，不同的index會以fill_value指定的值填充，
#需要注意: fill_value=10 表示兩個Series值進行相加時，如果index不匹配，會取兩者的并集，沒有的那個Series先講值進行填充為指定fill_value值，然后再兩者相加
#也就是說，兩個不同長度的Series相加時，會先將兩者的長度對其，缺失值填充NaN，然后再進行相加，NaN+數字 =NaN 所以也就能理解s4[“d”]的值為55了，

#Series中資料的選擇: get(key,default=None) 如果獲取多個值，以串列的形式提供
s3.get(“e”) #之間通過index得到對應的值
s3.get([“a”,“e”],66) #如果index中沒有值，則會輸出指定的值default = 66

#Series中通過切片取值：切片取值后的值仍為Series,如果是單個中就是value了，
type(s3[0])
s3[0:2]

Series中相加運算，

#對于均為數字型別的Series，兩Series進行相加時，相同的index會進行相加，不同的index按照NaN值進行填充，
#NaN屬于float型別，表示缺失資料，可以參與運算，
s5 = s2+s3

Series中缺失值操作

s1.notnull() #判斷Series中是否存在缺失值，不是空值（也就是不為NaN）回傳True，為空值(就是為NaN）回傳False，
s5.isnull() #判斷Series中是否存在空值，回傳的時Series物件的布林值，不為空，回傳False，為空值，回傳True，
#該操作可以在Series中對資料進行篩選操作，例如：
s5[s5.isnull()] #篩選出s5中為空值的行（數值),同樣也適用在對DataFrame的操作中，
s5[s5.notnull()] #篩選出s5中不為空值的行（數值），

#Series中缺失值的填充
s5.fillna(6) # 就是將s5中的NaN值填充為6

#Series中缺失值的洗掉
s5.dropna(inplace=True) #對于Series，直接就是洗掉NaN的值，回傳的是洗掉NaN后的Series，但是原來的Series不會改變，
#如果指定了inplace = True 則原來的Series會改變，默認inplace=False

#Series中對資料的去重操作
s5.unique() #去除Series中的重復值，回傳元素的唯一值，
s5.nunique() #回傳s1的唯一值的個數，回傳的是單個值，
s5.fillna(77)

#統計Series中值出現的次數
s5.value_counts() #統計Series中的值出現的次數，

#判斷某值是否存在Series中
s5.isin([4,5,6,7]) #判斷Series是否存在[4,5,6,7]這個串列中，回傳對應的bool型別Series，

#對Series中資料按照值的順序進行排序
s5.sort_values(ascending=False,inplace=False,na_position=“last”) #對于Series按照值排序不需要指定by 和axis 的值，

#對Series中按照索引的順序進行排序
s5.sort_index(level=None,ascending=True,inplace=False,na_position=“last”) #對于Series引數axis是不需要的，by引數不建議使用，

Series系列物件屬性

Series.inddex #回傳Series的index物件

Series.shape #回傳Series的形狀元組

Series.dtype #回傳Series的資料型別

Series.size #回傳Series的資料大小，資料的個數

Series.ndim #回傳資料中的維數第二部分：Pandas - DataFrame資料處理

#pd.DataFrame的創建: pd.DataFrame(data= , index=[] ,columns=[],dtypes=“int”)
#通過字典進行創建
dict1 = {“a”:[1,2,3],“b”:[4,5,6],“c”:[7,8,9],“d”:[10,11,12]}
df = pd.DataFrame(data = dict1,index=[3,4,5],columns=[“b”,“a”,“c”,“d”]) #通過dict進行創建DataFrame時，不需要指定columns，如果指定的columns值與dict的Key不一致時，會填充NaN的值，

#通過numpy創建
df1=pd.DataFrame(np.random.randint(3,8),columns=[“a”,“b”,“c”],index=[1,2,3])

#通過讀取csv/txt/excel檔案進行創建 pd.read_excel(“檔案路徑+檔案名+擴展名”,encoding =“gbk”,index_col=0,skiprows=[1],header = None )
#index_col 指定行索引的列
#header 指定列索引的行，默認header = 0
#usecols 指定只使用那些列，默認為None，全部使用
#skiprows 指定跳過哪些行
#dtype #設定列的型別，一般可以通過字典來進行設定，如 dtype = {“列名”:“型別”}
#sheet_name = 0 #表示讀取excel中的哪張表，可以寫表的名字，也可以寫index索引，0代表第一張表，1代表第二張表
df3 = pd.read_csv(r"C:\Users\11764\Desktop\DataAnalyst.csv",encoding=“gbk”)
df3

#DataFrame屬性：
df.columns #以index形式，回傳df的列名稱，因此可以通過修改列名，df.columns=list[] ,可以對列名進行修改
#還可以通過rename的方法對columns進行修改，df.rename(columns={“A”:“B”},inplace = True) 將A列的名稱更改為"B"
df.index #以index形式，回傳df的索引
df.shape #回傳df的形狀(幾行幾列） df.shape[0] 回傳df的行數 df.shape[1] 回傳df的列數
df3.size #回傳df的資料個數幾行*幾列的值
df.values #以陣列的形式，回傳df的值
df.dtypes #以Series形式回傳df的中每列資料的型別
df.ndim #以數字的形式回傳df的維度
df.T # 將df進行轉置，將資料的行變成列，將列變成行
http://df.info() #查看表中資料的型別

DataFrame 資料選擇

#df[] 默認是對列進行選擇，如果需要選擇對應行列中的值，需要先選擇列，再選擇行，即df[“columns”][“index”] 否則會報錯，輸入引數的位置是：先列后行
‘’‘后續可以通過df[“new_columns”]= list[] 來新增列，’’’
df[1:5] #選取1：4行的資料
df[“a”] #選擇columns=3的列， df[] 只有一個引數是默認是選擇列
df[[“a”,“b”]] #選擇的是不連續的兩列

df[“b”:“c”] #選擇的是連續的列

df[1:3] #選擇的是第2行到第3行的值，不包括第4行
df[:] #表示選擇所有的行
df[:2] #表示選擇前兩行的值
df[“a”][3] #表示選擇"a" 列中對應的index=3 的值， #建議在進行設定index值時，不要選擇整型作為新的index，本來默認為整型，容易形成混淆，

此時的3 表示index值為3，與實際引數位置3有明顯區別，也就是使用整型做index 的弊端，

#通過loc 和iloc 進行取值
#loc 是根據行列標簽來進行選擇. 需要取多列，將多列的標簽放在串列[]中，輸入引數的位置是：先行后列

df.loc[] 如果只有一個引數，默認是選擇行的，需要注意：與df[] 只有一個引數默認是選擇列的，

df.loc[3] #選擇index=3對應的行，
‘’’ 后續可以通過df.loc[“new_index”] = list[] ,該方式對DataFrame新增行，’’’
df.loc[:] #表示選擇所有的行
df.loc[3,“a”] #表示取index=3的行對應"a"列對應的值，
df.loc[:,“a”] #表示取"a" 列的所有值，
df.loc[3,:] # 表示取index=3 對應行的所有值，

#iloc 是根據行列的位置來進行取值的，如果只有一個引數，則默認選擇取行，輸入引數的位置是: 先行后列
df.iloc[2] #選擇位置引數為2（對應第3行）的資料，
df.iloc[[1,2]] #表示選擇第2行和第三行的資料，
df.iloc[1,2] #表示取第2行和第3列對應的數值
df.iloc[[1,2],[1,2]] #表示取第2行和第3行，對應的第2列和第3列的資料，

‘’’’
資料選擇總結：
df.loc[2],df.iloc[1] 只有一個引數表示是對行進行選擇，
默認情況下 df[] 只能通過columns進行列選擇，不能進行行選擇，如果含有行號和區間，如df[:2] 是可以進行行選擇，
df.columns 表示選擇的columns這列，等價于 df[“columns”]
‘’’
#DataFrame 資料的預處理-行列操作
#df.pop(item) #itme 指列標簽，表示指定洗掉的列，并彈出洗掉列的值，不能作用于行
df.pop(“a”) #洗掉df中的對應的"a" 列，原df資料會被改變，

#df.get(key,default=None) key表示指定的列索引標簽，如果df中有列索引，則回傳該列的值，沒有的話回傳default的值，
df.get(“b”)

#df.insert(loc,column,value,allow_duplicates=False) 在df的指定位置插入一列，不能作用于行，
‘’’ loc 以int表示，表示插入列的位置，0<lco<len(columns)
column 以str,number,object 表示插入列的標簽
value 以int，Series，array-like 表示插入列的值
allow_duplicates 以bool型別表示，如果原df中有對應標簽，True表示允許一樣，False表示不能一樣，’’’
df.insert(2,“k”,[15,13,17])

#對df中行或列資料進行排序，

df.sort_values(by="" ,axis=0,ascending =True,inplace =False,na_position=‘last’,ignore_index=False)

‘’‘by="" 指定行索引名（“index”）或者列索引（“cloumns”）,引數需要以串列[]的形式進行提供，
axis=0/1 若axis=0或"index"按照指定列中資料大小進行排序，若axis=1或"columns",則按照指定行索引中資料大小進行排序，默認axis=0
ascending=True/False 是否按照指定列進行升序排序，默認為True，即升序排列，
inplace=True/False 是否使用排序后的資料集更替原來的資料集，默認為False，即不替換，
na_position=“frist” 或“last” 設定缺失值的顯示位置，’’’
df.sort_values(by=[3],axis=1) #表示按照index=3 對列進行排序，axis=1 表示跨行操作，也就是橫向排序
df.sort_values(by=[“b”],axis=0) #表示按照列名"a",對行進行排序，axis=0 表示跨列操作，也就是縱向排序
df[“b”].sort_values() #表示的是對“a“ 列的資料進行值排序，回傳的是"a" 列資料排序后的Series，

對df中的資料按照index進行排序

#sort_index(axis=0, level=None, ascending=True, inplace=False, kind=‘quicksort’, na_position=‘last’, sort_remaining=True, by=None)
‘’’
axis：0按照行名排序；1按照列名排序
level：默認None，否則按照給定的level順序排列—貌似并不是，檔案
ascending：默認True升序排列；False降序排列
inplace：默認False，否則排序之后的資料直接替換原來的資料框
kind：排序方法，{‘quicksort’, ‘mergesort’, ‘heapsort’}, default ‘quicksort’，似乎不用太關心，
na_position：缺失值默認排在最后{“first”,“last”}
by：按照某一列或幾列資料進行排序，但是by引數貌似不建議使用
‘’’
df.sort_index(ascending=False) # axis 按照指定的行或列進行排序，

#對DataFrame中的資料設定索引值，也就是指定某一列作為列索引，
#df.set_index(keys,drop=True,append=False,inplace=False,verify_integrity=False)
‘’’
drop：默認為True，洗掉用作新索引的列
append：是否將附加到現有索引，默認為False ##通俗來講，就是設定后的索引是否與原來的索引同時存在，True表示現索引和原索引同時并存
inplace：輸入布林值，表示當前操作是否對原資料進行修改，默認為False
verify_integrity :檢查新索引副本，默認為False
‘’’
df.set_index(“k”)

#對df中將設定的索引回復到默認的索引值,與set_index 構成反向操作，

df.reset_index(level=None,drop=False,inplace=False,col_level=0,col_fill=" ")

‘’’
將原來設定為索引的列進行還原，新的索引列默認填充，設定索引列的列回到df資料中，如果drop=True，則設定為索引列的列會被丟棄，
簡單理解就是通過set_index 設定的df的index，現在又不想用了，可以直接df.reset_index(),又回到原來的默認值了
Level :當指定數值型別可以為int，str，tuple或list，默認為None（無）
Drop：當指定drop=False時，則索引列會被還原為普通列，否則為True時，經設定后的新索引值會被丟棄，默認為False，
inplace：True/False 表示當前操作是否對原資料生效，默認為False
Col_level :數值型別為int或str，默認值為0，如果列有多個級別，則確定將標簽插入到哪個級別，默認情況下將插入到第一級，
Col_fill:物件，默認“ ”
‘’’
df.reset_index()

#將已有的df中的index或columns設定成自定義的index或columns，如果新設定的index或columns在原df中存在，會對原df進行且切片，否則會對應的值填充NaN值，
#df.reindex(labels=None,index=None,columns=None,axis=None,method=None,copy=None,level=None,fill_value=nan,limit=None,tolerance=None)
df.reindex(labels=“a”,index=[1,2,3]) #如果指定了index=[] ,就不需要再傳入axis引數了，

#修改原df的index或columns名
‘’’
簡單理解就是原來的df的index和column已經有了默認名稱，現在我想重新修改名稱，我可以只修改幾個名稱，或者覺得index或columns中有些名稱不想要，
想改，可以通過字典形式進行映射修改，但是修改后的df的維度不會發生改變，不會像reindex那樣可以新增或者切片，
但是rename修改名稱時，index或columns需通過字典值映射，index={“原名”:“新名”},columns={“原名”:“新名”}
‘’’
df.rename(index={3:6},columns={“k”:“g”}) #將df中的index索引3修改為6，將columns中"k"修改成"g"，【內容持續更新…如果覺得對你有幫助，幫忙點個收藏和關注，謝謝！

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/139222.html

標籤：其他

上一篇：邏輯回歸預測癌癥分類

下一篇：python網路爬蟲學習筆記（十一）：Ajax資料爬取

Python-零基礎學習Pandas知識點整理