寫在前面,我也是一名python學習小白,從最近開始學習Python,由于之前沒有編程基礎,學習起來比較費勁,大部分時間都是從網上看寫教學視頻,一邊學習,一邊操作,但是大部分情況都是學完就忘,真正讓自己寫代碼時,又總是依賴百度,進步很慢,最近也在通過學習Python的資料處理包-pandas,分享一些自己在實際學習程序中練習的一些代碼,由于是類似比較,所以會有很多注釋,幫助自己記憶的,【代碼內容是可以直接復制到Pycharm中直接運行的】 ---如需轉載,請注明出處,謝謝,[來自我的知乎:](https://www.zhihu.com/column/c_1293672028898172928)
import pandas as pd
import numpy as np
第一部分:Pandas -Series資料處理
#pd.Series(data=list,index=[ ],name=”“) 創建:
#通過字典創建:
dic={“a”:[1,2,3],“b”:[4,5,6],“c”:[7,8,9]}
s1 = pd.Series(data=dic,name=“Random_num”) #通過字典來創建Series,字典的Key為index(由于dict中key值不允許重復,所以不會有重復index),value為Series的value
#通過字典創建Series也可以指定index,如果指定的index與字典中key不一致,則會按照指定的index進行添加,value值會填充為NaN
#通過串列創建:
list1=[1,2,3,4]
s2 = pd.Series(data=list1,index=[“a”,“e”,“f”,“g”],name=“Random”) #通過串列來創建Series,可以指定index(可以重復),如果不指定默認按0-整數作為index
#獲取Series的name
s1.name
#獲取Series的index
s1.index
#Series中增加資料:append(to_append,ignore_index=False) to_append為字典或Series,添加后不會改變原Series的內容,
#通過Series或dict來增加
s3 = s1.append(s2,ignore_index=True) #默認為False,添加什么就顯示什么, True表示為添加后的Series重新進行賦index值0-
s3 = s2.append(pd.Series({“h”:45})) #其實括號中的字典已經被轉換成Series再添加,所以append添加Series也是只能添加Series型別,
#向Series中添加other物件,add(other, level=None, fill_value=None, axis=0)
#使用add添加物件時,Series中必須為數字型別,否則會報錯,
s2.add(5) #就是在s2中每個value值都增加5,
s4= s3.add(s2,fill_value=10) #如果兩個Series有相同的index,那么相同的index的值會直接相加,不同的index會以fill_value指定的值填充,
#需要注意: fill_value=10 表示兩個Series值進行相加時,如果index不匹配,會取兩者的并集,沒有的那個Series先講值進行填充為指定fill_value值,然后再兩者相加
#也就是說,兩個不同長度的Series相加時,會先將兩者的長度對其,缺失值填充NaN,然后再進行相加,NaN+數字 =NaN 所以也就能理解s4[“d”]的值為55了,
#Series中資料的選擇: get(key,default=None) 如果獲取多個值,以串列的形式提供
s3.get(“e”) #之間通過index得到對應的值
s3.get([“a”,“e”],66) #如果index中沒有值,則會輸出指定的值default = 66
#Series中通過切片取值: 切片取值后的值仍為Series,如果是單個中就是value了,
type(s3[0])
s3[0:2]
Series中相加運算,
#對于均為數字型別的Series,兩Series進行相加時,相同的index會進行相加,不同的index按照NaN值進行填充,
#NaN屬于float型別,表示缺失資料,可以參與運算,
s5 = s2+s3
Series中缺失值操作
s1.notnull() #判斷Series中是否存在缺失值,不是空值(也就是不為NaN)回傳True,為空值(就是為NaN)回傳False,
s5.isnull() #判斷Series中是否存在空值,回傳的時Series物件的布林值,不為空,回傳False,為空值,回傳True,
#該操作可以在Series中對資料進行篩選操作,例如:
s5[s5.isnull()] #篩選出s5中為空值的行(數值),同樣也適用在對DataFrame的操作中,
s5[s5.notnull()] #篩選出s5中不為空值的行(數值),
#Series中缺失值的填充
s5.fillna(6) # 就是將s5中的NaN值填充為6
#Series中缺失值的洗掉
s5.dropna(inplace=True) #對于Series,直接就是洗掉NaN的值,回傳的是洗掉NaN后的Series,但是原來的Series不會改變,
#如果指定了inplace = True 則原來的Series會改變,默認inplace=False
#Series中對資料的去重操作
s5.unique() #去除Series中的重復值,回傳元素的唯一值,
s5.nunique() #回傳s1的唯一值的個數,回傳的是單個值,
s5.fillna(77)
#統計Series中值出現的次數
s5.value_counts() #統計Series中的值出現的次數,
#判斷某值是否存在Series中
s5.isin([4,5,6,7]) #判斷Series是否存在[4,5,6,7]這個串列中,回傳對應的bool型別Series,
#對Series中資料按照值的順序進行排序
s5.sort_values(ascending=False,inplace=False,na_position=“last”) #對于Series按照值排序不需要指定by 和axis 的值,
#對Series中按照索引的順序進行排序
s5.sort_index(level=None,ascending=True,inplace=False,na_position=“last”) #對于Series引數axis是不需要的,by引數不建議使用,
Series系列物件屬性
Series.inddex #回傳Series的index物件
Series.shape #回傳Series的形狀元組
Series.dtype #回傳Series的資料型別
Series.size #回傳Series的資料大小,資料的個數
Series.ndim #回傳資料中的維數第二部分:Pandas - DataFrame資料處理
#pd.DataFrame的創建: pd.DataFrame(data= , index=[] ,columns=[],dtypes=“int”)
#通過字典進行創建
dict1 = {“a”:[1,2,3],“b”:[4,5,6],“c”:[7,8,9],“d”:[10,11,12]}
df = pd.DataFrame(data = dict1,index=[3,4,5],columns=[“b”,“a”,“c”,“d”]) #通過dict進行創建DataFrame時,不需要指定columns,如果指定的columns值與dict的Key不一致時,會填充NaN的值,
#通過numpy創建
df1=pd.DataFrame(np.random.randint(3,8),columns=[“a”,“b”,“c”],index=[1,2,3])
#通過讀取csv/txt/excel檔案進行創建 pd.read_excel(“檔案路徑+檔案名+擴展名”,encoding =“gbk”,index_col=0,skiprows=[1],header = None )
#index_col 指定行索引的列
#header 指定列索引的行,默認header = 0
#usecols 指定只使用那些列,默認為None,全部使用
#skiprows 指定跳過哪些行
#dtype #設定列的型別,一般可以通過字典來進行設定,如 dtype = {“列名”:“型別”}
#sheet_name = 0 #表示讀取excel中的哪張表,可以寫表的名字,也可以寫index索引,0代表第一張表,1代表第二張表
df3 = pd.read_csv(r"C:\Users\11764\Desktop\DataAnalyst.csv",encoding=“gbk”)
df3
#DataFrame屬性:
df.columns #以index形式,回傳df的列名稱,因此可以通過修改列名,df.columns=list[] ,可以對列名進行修改
#還可以通過rename的方法對columns進行修改,df.rename(columns={“A”:“B”},inplace = True) 將A列的名稱更改為"B"
df.index #以index形式,回傳df的索引
df.shape #回傳df的形狀(幾行幾列) df.shape[0] 回傳df的行數 df.shape[1] 回傳df的列數
df3.size #回傳df的資料個數 幾行*幾列的值
df.values #以陣列的形式,回傳df的值
df.dtypes #以Series形式回傳df的中每列資料的型別
df.ndim #以數字的形式回傳df的維度
df.T # 將df進行轉置,將資料的行變成列,將列變成行
http://df.info() #查看表中資料的型別
DataFrame 資料選擇
#df[] 默認是對列進行選擇,如果需要選擇對應行列中的值,需要先選擇列,再選擇行,即df[“columns”][“index”] 否則會報錯, 輸入引數的位置是:先列后行
‘’‘后續可以通過df[“new_columns”]= list[] 來新增列,’’’
df[1:5] #選取1:4行的資料
df[“a”] #選擇columns=3的列, df[] 只有一個引數是默認是選擇列
df[[“a”,“b”]] #選擇的是不連續的兩列
df[“b”:“c”] #選擇的是連續的列
df[1:3] #選擇的是第2行到第3行的值,不包括第4行
df[:] #表示選擇所有的行
df[:2] #表示選擇前兩行的值
df[“a”][3] #表示選擇"a" 列中對應的index=3 的值, #建議在進行設定index值時,不要選擇整型作為新的index,本來默認為整型,容易形成混淆,
此時的3 表示index值為3,與實際引數位置3有明顯區別,也就是使用整型做index 的弊端,
#通過loc 和iloc 進行取值
#loc 是根據行列標簽來進行選擇. 需要取多列,將多列的標簽放在串列[]中, 輸入引數的位置是:先行后列
df.loc[] 如果只有一個引數,默認是選擇行的, 需要注意:與df[] 只有一個引數默認是選擇列的,
df.loc[3] #選擇index=3對應的行,
‘’’ 后續可以通過df.loc[“new_index”] = list[] ,該方式對DataFrame新增行,’’’
df.loc[:] #表示選擇所有的行
df.loc[3,“a”] #表示取index=3的行對應"a"列對應的值,
df.loc[:,“a”] #表示取"a" 列的所有值,
df.loc[3,:] # 表示取index=3 對應行的所有值,
#iloc 是根據行列的位置來進行取值的, 如果只有一個引數,則默認選擇取行, 輸入引數的位置是: 先行后列
df.iloc[2] #選擇位置引數為2(對應第3行)的資料,
df.iloc[[1,2]] #表示選擇第2行和第三行的資料,
df.iloc[1,2] #表示取第2行和第3列對應的數值
df.iloc[[1,2],[1,2]] #表示取第2行和第3行,對應的第2列和第3列的資料,
‘’’’
資料選擇總結:
df.loc[2],df.iloc[1] 只有一個引數表示是對行進行選擇,
默認情況下 df[] 只能通過columns進行列選擇,不能進行行選擇,如果含有行號和區間,如df[:2] 是可以進行行選擇,
df.columns 表示選擇的columns這列,等價于 df[“columns”]
‘’’
#DataFrame 資料的預處理-行列操作
#df.pop(item) #itme 指列標簽,表示指定洗掉的列,并彈出洗掉列的值,不能作用于行
df.pop(“a”) #洗掉df中的對應的"a" 列,原df資料會被改變,
#df.get(key,default=None) key表示指定的列索引標簽,如果df中有列索引,則回傳該列的值,沒有的話回傳default的值,
df.get(“b”)
#df.insert(loc,column,value,allow_duplicates=False) 在df的指定位置插入一列, 不能作用于行,
‘’’ loc 以int表示,表示插入列的位置,0<lco<len(columns)
column 以str,number,object 表示插入列的標簽
value 以int,Series,array-like 表示插入列的值
allow_duplicates 以bool型別表示,如果原df中有對應標簽,True表示允許一樣,False表示不能一樣,’’’
df.insert(2,“k”,[15,13,17])
#對df中行或列資料進行排序,
df.sort_values(by="" ,axis=0,ascending =True,inplace =False,na_position=‘last’,ignore_index=False)
‘’‘by="" 指定行索引名(“index”)或者列索引(“cloumns”),引數需要以串列[]的形式進行提供,
axis=0/1 若axis=0或"index"按照指定列中資料大小進行排序,若axis=1或"columns",則按照指定行索引中資料大小進行排序,默認axis=0
ascending=True/False 是否按照指定列進行升序排序,默認為True,即升序排列,
inplace=True/False 是否使用排序后的資料集更替原來的資料集,默認為False,即不替換,
na_position=“frist” 或“last” 設定缺失值的顯示位置,’’’
df.sort_values(by=[3],axis=1) #表示按照index=3 對列進行排序,axis=1 表示跨行操作,也就是橫向排序
df.sort_values(by=[“b”],axis=0) #表示按照列名"a",對行進行排序,axis=0 表示跨列操作,也就是縱向排序
df[“b”].sort_values() #表示的是對“a“ 列的資料進行值排序,回傳的是"a" 列資料排序后的Series,
對df中的資料按照index進行排序
#sort_index(axis=0, level=None, ascending=True, inplace=False, kind=‘quicksort’, na_position=‘last’, sort_remaining=True, by=None)
‘’’
axis:0按照行名排序;1按照列名排序
level:默認None,否則按照給定的level順序排列—貌似并不是,檔案
ascending:默認True升序排列;False降序排列
inplace:默認False,否則排序之后的資料直接替換原來的資料框
kind:排序方法,{‘quicksort’, ‘mergesort’, ‘heapsort’}, default ‘quicksort’,似乎不用太關心,
na_position:缺失值默認排在最后{“first”,“last”}
by:按照某一列或幾列資料進行排序,但是by引數貌似不建議使用
‘’’
df.sort_index(ascending=False) # axis 按照指定的行或列進行排序,
#對DataFrame中的資料設定索引值,也就是指定某一列作為列索引,
#df.set_index(keys,drop=True,append=False,inplace=False,verify_integrity=False)
‘’’
drop:默認為True,洗掉用作新索引的列
append:是否將附加到現有索引,默認為False ##通俗來講,就是設定后的索引是否與原來的索引同時存在,True表示現索引和原索引同時并存
inplace:輸入布林值,表示當前操作是否對原資料進行修改,默認為False
verify_integrity :檢查新索引副本,默認為False
‘’’
df.set_index(“k”)
#對df中將設定的索引回復到默認的索引值,與set_index 構成反向操作,
df.reset_index(level=None,drop=False,inplace=False,col_level=0,col_fill=" ")
‘’’
將原來設定為索引的列進行還原,新的索引列默認填充,設定索引列的列回到df資料中,如果drop=True,則設定為索引列的列會被丟棄,
簡單理解就是通過set_index 設定的df的index,現在又不想用了,可以直接df.reset_index(),又回到原來的默認值了
Level :當指定數值型別可以為int,str,tuple或list,默認為None(無)
Drop:當指定drop=False時,則索引列會被還原為普通列,否則為True時,經設定后的新索引值會被丟棄,默認為False,
inplace:True/False 表示當前操作是否對原資料生效,默認為False
Col_level :數值型別為int或str,默認值為0,如果列有多個級別,則確定將標簽插入到哪個級別,默認情況下將插入到第一級,
Col_fill:物件,默認“ ”
‘’’
df.reset_index()
#將已有的df中的index或columns設定成自定義的index或columns,如果新設定的index或columns在原df中存在,會對原df進行且切片,否則會對應的值填充NaN值,
#df.reindex(labels=None,index=None,columns=None,axis=None,method=None,copy=None,level=None,fill_value=nan,limit=None,tolerance=None)
df.reindex(labels=“a”,index=[1,2,3]) #如果指定了index=[] ,就不需要再傳入axis引數了,
#修改原df的index或columns名
‘’’
簡單理解就是原來的df的index和column已經有了默認名稱,現在我想重新修改名稱,我可以只修改幾個名稱,或者覺得index或columns中有些名稱不想要,
想改,可以通過字典形式進行映射修改,但是修改后的df的維度不會發生改變,不會像reindex那樣可以新增或者切片,
但是rename修改名稱時,index或columns需通過字典值映射,index={“原名”:“新名”},columns={“原名”:“新名”}
‘’’
df.rename(index={3:6},columns={“k”:“g”}) #將df中的index索引3修改為6,將columns中"k"修改成"g", 【內容持續更新…如果覺得對你有幫助,幫忙點個收藏和關注,謝謝!
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/139222.html
標籤:其他
上一篇:邏輯回歸預測癌癥分類
