Pandas 的主要資料結構是 Series (一維資料)與 DataFrame(二維資料),是一個提供高性能、易于使用的資料結構和資料分析工具,
接下來查看Pandas的基本使用:
# 匯入模塊 import pandas as pd import numpy as np
# 讀取檔案 stu = pd.read_excel('./stu_data.xlsx') stu.head()

# 查看資料 (資料型別,是否有空值) stu.info()

# 轉換資料型別 stu['日期'] = stu['日期'].astype('str') stu.info()

切片操作
# iloc or loc切片 (學號,身高,體重) stu.iloc[:,[0,2,3]] # 獲取學號,身高,體重,所有行資訊 stu.loc[5:10,['學號','身高','體重'] ]

查詢操作
# sql查詢語言 身高高于170 性別是女 stu.query('身高 > 170 and 性別 == "女"') # pandas查詢 stu[ (stu['身高'] > 170) & (stu['性別'] == "女") ]

# 通過索引號獲取資訊 stu.query('10')

排序操作
stu['身高'].sort_values() # 默認正序 stu['身高'].sort_values(ascending=False) # 默認正序

分組操作
# 按課程分組,查看分組里面的資料 stu = stu.groupby('課程') stu.groups

# 查看分組描述 stu.describe()

# 分組匯總 # stu.agg(['mean','std']) # 分組后每一列的均值和標準差 print(stu.身高.agg(max))

數值變數分段
stu = pd.read_excel('./stu_data.xlsx') stu['新體重'] = pd.cut(stu.體重,bins=[40,50,60,70,80,90],right=False) stu.head()

時間拆分
# stu.日期 stu['年份'] = stu.日期.dt.year stu['月份'] = stu.日期.dt.month stu['天數'] = stu.日期.dt.day stu.head()

表連接
# 創建新Series物件 stu1 = pd.Series(np.arange(12345678900,12345678952),name='手機號') stu1

# 合并表
stu3 = pd.concat([stu,stu1],axis=1) stu3.head()

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/500370.html
標籤:其他
上一篇:面向物件-基礎篇
