主頁 > 後端開發 > 【pandas基礎】--日期處理

【pandas基礎】--日期處理

2023-06-03 07:56:07 後端開發

時間序列資料是資料分析中一類常見且重要的資料,
它們按照時間順序記錄,通常是從某些現象的觀察中收集的,比如經濟指標、氣象資料、股票價格、銷售資料等等,

時間序列資料的特點是有規律地隨著時間變化而變化,它們的變化趨勢可以被分析和預測,時間序列分析是一種用于預測未來值或評估過去值的統計方法,常常被用于預測未來趨勢、季節性變化、周期性變化、隨機波動等,

1. 日期型別

原始資料中,日期一般會存盤為各種型別字串,比如:

  • 2022/5/1
  • 2022-05-02
  • 3/5/2022

將其統一轉換為pandas的日期型別,后續統計分析時,不僅方便計算,還可以有效避免應對各種格式帶來的麻煩,

1.1 轉換為日期型別

pandasto_datetime函式對于資料集中各類日期字串都能有效的轉換,

df = pd.DataFrame(
    {
        "日期": ["2022/5/1", "2022-05-02", "3/5/2022"],
        "城市": ["合肥", "合肥", "合肥"],
        "平均氣溫": [28, 31, 27],
    },
)

print(df)
print(df.dtypes)

image.pngimage.png

可以看出,默認的日期是字串型別且格式混亂,
轉換后:

df["日期"] = pd.to_datetime(df["日期"])
print(df)
print(df.dtypes)

image.pngimage.png
日期顯示起來格式統一了,型別也變為了datetime64[ns]

1.2 生成日期序列

除了將資料集讀取來的日期字串轉換為日期型別,我們也可以生成日期序列,這些生成的日期序列可以作為的資料索引,也可以用來補充資料集中缺失的日期值,

df = pd.DataFrame()
df["年"] = pd.date_range('2020-01-01', periods=3, freq='Y')
df["月"] = pd.date_range('2020-01-01', periods=3, freq='M')
df["日"] = pd.date_range('2020-01-01', periods=3, freq='D')
df["周"] = pd.date_range('2020-01-01', periods=3, freq='W')
df["季度"] = pd.date_range('2020-01-01', periods=3, freq='Q')
df

image.png
上面的示例分別以季度為間隔,生成3條連續的時間序列,

1.3 修改日期

修改日期的值,也是利用日期型別自帶的方法,不用像修改字串那樣修改,那樣極易出錯,

df = pd.DataFrame()
d = pd.date_range('2020-01-01', periods=3, freq='D')
df["原始日期"] = d
df["延遲三天"] = d.shift(3, freq="D")
df["提前三天"] = d.shift(-3, freq="D")
df

image.png
這里是按調整的,如果要按照季度等調整,像上一個例子那樣設定freq引數即可,

2. 日期屬性

將資料轉換為pandas日期型別的最大好處就是可以使用日期型別特有的屬性,方便進行各個維度的分析,

常用的日期維度是年,月,日,周,季度,

2.1 年

利用日期屬性按年份統計合計值:

df = pd.DataFrame(
    {
        "日期": ["2020/5/1", "2021/5/1", "2021/6/3", "2022/9/4"],
        "平均氣溫": [28, 31, 27, 33],
    },
)

df["日期"] = pd.to_datetime(df["日期"])
df["年"] = df["日期"].dt.year
print(df)
print(df.groupby(df["年"]).sum())

image.png
兩個2021年的資料統計了合計值,

2.2 月

按月統計合計值:

df = pd.DataFrame(
    {
        "日期": ["2020/5/1", "2021/5/1", "2021/6/3", "2022/9/4"],
        "平均氣溫": [28, 31, 27, 33],
    },
)

df["日期"] = pd.to_datetime(df["日期"])
df["月"] = df["日期"].dt.month
print(df)
print(df.groupby(df["月"]).sum())

image.png
兩個5月份的資料統計了合計值,

2.3 日

按日統計合計值:

df = pd.DataFrame(
    {
        "日期": ["2020/5/1", "2021/5/1", "2021/6/3", "2022/9/4"],
        "平均氣溫": [28, 31, 27, 33],
    },
)

df["日期"] = pd.to_datetime(df["日期"])
df["日"] = df["日期"].dt.day
print(df)
print(df.groupby(df["日"]).sum())

image.png
兩個1號的資料統計了合計值,

2.4 周

按周統計合計值:

df = pd.DataFrame(
    {
        "日期": ["2021/5/1", "2021/5/31", "2021/6/3", "2021/9/4"],
        "平均氣溫": [28, 31, 27, 33],
    },
)

df["日期"] = pd.to_datetime(df["日期"])
df["周"] = df["日期"].dt.isocalendar().week
print(df)
print(df.groupby(df["周"]).sum())

image.png
上面兩個日期同屬于第22周,所以計算了合計值,
獲取周屬性與前面略有不同,不是直接獲取week,而是用isocalendar().week

2.5 季度

按季度統計合計值:

df = pd.DataFrame(
    {
        "日期": ["2021/5/1", "2021/5/31", "2021/6/3", "2021/9/4"],
        "平均氣溫": [28, 31, 27, 33],
    },
)

df["日期"] = pd.to_datetime(df["日期"])
df["季度"] = df["日期"].dt.quarter
print(df)
print(df.groupby(df["季度"]).sum())

image.png
上面3個日期都是第二季度,所以計算了合計值,

3. 總結回顧

本篇特意將pandas中的日期型別單獨介紹,
一方面是因為日期型別與其他型別相比,多出了很多特有的屬性;
另一方面,時間序列資料和回歸分析中也會大量用到日期型別,

這里介紹了日期型別的轉換方法和常用屬性,但日期型別不僅僅限于這些屬性,其他的屬性可以參考pandas的官方檔案:Index objects — pandas 2.0.1 documentation

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/554130.html

標籤:Python

上一篇:Java 網路編程 —— 客戶端協議處理框架

下一篇:返回列表

標籤雲
其他(160206) Python(38197) JavaScript(25473) Java(18184) C(15236) 區塊鏈(8269) C#(7972) AI(7469) 爪哇(7425) MySQL(7223) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5873) 数组(5741) R(5409) Linux(5346) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4581) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2434) ASP.NET(2403) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1980) 功能(1967) Web開發(1951) HtmlCss(1951) C++(1928) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1879) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • 【pandas基礎】--日期處理

    時間序列資料是資料分析中一類常見且重要的資料。 它們按照時間順序記錄,通常是從某些現象的觀察中收集的,比如經濟指標、氣象資料、股票價格、銷售資料等等。 時間序列資料的特點是有規律地隨著時間變化而變化,它們的變化趨勢可以被分析和預測。時間序列分析是一種用于預測未來值或評估過去值的統計方法,常常被用于預 ......

    uj5u.com 2023-06-03 07:56:07 more
  • Java 網路編程 —— 客戶端協議處理框架

    ## 概述 Java 對客戶程式的通信程序進行了抽象,提供了通用的協議處理框架,該框架封裝了 Socket,主要包括以下類: - URL 類:統一資源定位符,表示客戶程式要訪問的遠程資源 - URLConnection 類:表示客戶程式與遠程服務器的連接,客戶程式可以從 URLConnection ......

    uj5u.com 2023-06-03 07:55:42 more
  • 40基于java的美食菜譜分享系統設計與實作

    基于java的美食菜譜分享系統設計與實作,餐飲分享平臺設計與實作,可用于美食在線分享平臺,作為世界各地愛好美食的人們的橋梁,為其創造一個氛圍好的平臺,促進美食世界的文化交流。該系統是一個供商家或者個人推薦美食的網站,網站不支持交易僅供分享。 ......

    uj5u.com 2023-06-03 07:55:38 more
  • JAVA Socket編程

    aliases: [] tags : " " summary: [基于TCP/IP和UDP協議的Java Socket網路通信編程] author : [yaenli] notekey: [20230512-143738] # Socket 網路模型 Socket編程是在TCP/IP、UDP協議上的 ......

    uj5u.com 2023-06-03 07:50:18 more
  • elment UI + EasyExcel 實作 匯入

    前端組件 <hd-flex> <el-dialog v-model="isUploadDialog" width="50%" lock-scroll=false> <el-upload class="upload-demo" drag :action="url" :on-success="succe ......

    uj5u.com 2023-06-03 07:45:08 more
  • 什么是 Apache ActiveMQ?

    # 什么是 ActiveMQ? ActiveMQ 是一種流行的訊息傳遞服務,可促進企業系統中大規模的不同資料。在本 ActiveMQ 教程中,我們概述了 ActiveMQ、它的優點、它的作業原理以及何時應該使用它。 什么是 ActiveMQ? ActiveMQ 是一種流行的開源訊息傳遞服務,它構建在 ......

    uj5u.com 2023-06-03 07:45:03 more
  • 39基于java的酒店管理系統設計與實作

    基于java的酒店管理系統設計與實作,酒店訂票系統,酒店預訂系統,酒店資訊管理系統,app訂房系統設計與實作; ......

    uj5u.com 2023-06-03 07:44:58 more
  • 談談一致性哈希演算法

    一致性哈希演算法是1997年由麻省理工的幾位學者提出的用于解決分布式快取中的熱點問題。大家有沒有發現,我們之前介紹的例如快排之類的演算法是更早的六七十年代,此時分布式還沒有發展起來,大家往往還在提高單機性能。但是九十年代開始,逐漸需要用分布式集群來解決大型問題,相應的演算法研究也就應運而生。在說到一致性哈 ......

    uj5u.com 2023-06-03 07:44:44 more
  • 38基于java的在線商城設計與實作

    基于java的在線商城設計與實作,在線購物平臺,校園購物商城,商品銷售平臺,基于Java的電商平臺;電商平臺,買家和賣家可以在此平臺上進行銷售和交易,節約了大量的線下時間成本,購物車的功能,校園交易平臺等等; ......

    uj5u.com 2023-06-03 07:44:35 more
  • FastJson轉Java對像欄位不區分大小寫

    昨天遇到引數key大小寫不一致導致校驗簽名失敗的問題,查了很長時間才找到原因。看了一下FastJson原始碼,發現JSON.toObject中轉換成物件的時候會忽略大小寫。 所以,當使用了JSON.toObject將json轉成Java物件后,再用JSON.toObject轉成json,key值就變了 ......

    uj5u.com 2023-06-03 07:44:31 more