主頁 > 後端開發 > 【pandas基礎】--資料統計

【pandas基礎】--資料統計

2023-06-08 07:54:42 後端開發

在進行統計分析時,pandas提供了多種工具來幫助我們理解資料,
pandas提供了多個聚合函式,其中包括均值、標準差、最大值、最小值等等,
此外,pandas還可以進行基于列的統計分析,例如通過groupby()函式對資料進行聚合,并計算每組的統計分析結果,

除了基本的統計分析之外,pandas還可以進行更高級的分析,例如基于時間序列的分析等,
總之,pandas是一個非常強大的資料處理工具,可以幫助我們更輕松地進行資料分析和探索,

1. 一般統計

拿到資料之后,第一步我們會通過一些常用的統計資訊來大體了解下資料的整體情況,
pandas中常用的統計函式有:

  1. .sum():計算物件的總和
  2. .mean():計算物件的平均值
  3. .median():計算物件的中位數
  4. .max():計算物件的最大值
  5. .min():計算物件的最小值
  6. .count():計算物件數量
  7. .std():計算物件標準差
  8. .var():計算物件方差

通過agg函式可以一次將所有的統計資訊分析出來,

import pandas as pd

df = pd.DataFrame(
    {
        "數學": [100, 88, 94, 76, 84],
        "語文": [98, 80, 86, 76, 90],
        "英語": [95, 91, 86, 95, 83],
    },
    index=["小紅", "小明", "小汪", "小李", "小張"],
)

df.agg(["sum", "mean", "median","max", "min", "count", "std", "var"])

image.png

2. 分組統計

如果要分析的資料集中不同的多個行存在同屬于一個分類時,可以先分組之后再用上面的統計分析方法,
比如下面的示例,按年級分組統計的是同一個年級中所有學生的成績情況,而按學生分組統計的則是該學生在各個年級階段的成績情況,

按年級分組統計:
agg函式除了可以指定統計函式,還可以指定統計的列,下面的示例只統計了語文和數學情況)

df = pd.DataFrame(
    {
        "姓名": ["小紅", "小明", "小紅", "小明", "小汪", "小汪"],
        "年級": ["初二", "初一", "初一", "初二", "初一", "初二"],
        "數學": [100, 88, 94, 76, 84, 78],
        "語文": [98, 80, 86, 76, 90, 88],
        "英語": [95, 91, 86, 95, 83, 65],
    },
)

agg_funcs = ["max", "min", "mean"]
df.groupby(by="年級").agg({"語文": agg_funcs, "數學": agg_funcs})

image.png

按學生分組統計:

df.groupby(by="姓名").agg({"語文": agg_funcs, "數學": agg_funcs})

image.png

3. 透視表

pandas透視表(Pivot Table)是資料分析中的一種非常強大的功能,可以實作資料的按列匯總、按行匯總、按列和行同時匯總、資料透視和資料分析等功能,

同樣使用上一節中的示例資料,原始資料中,年級,姓名和分數混在一起,要看按人或者按年級查看成績情況的時候,需要進行過濾和排序等操作,
image.png

如果使用透視表的話,可以將原始資料中的某些列的值作為新的索引,某些列的值作為新的列,那么資料會更加一目了然,
另外,透視表的結果用來繪制折線圖,柱狀圖等也非常方便,

年級作為索引,姓名作為列名的透視表:

df = pd.DataFrame(
    {
        "姓名": ["小紅", "小明", "小紅", "小明", "小汪", "小汪"],
        "年級": ["初二", "初一", "初一", "初二", "初一", "初二"],
        "數學": [100, 88, 94, 76, 84, 78],
        "語文": [98, 80, 86, 76, 90, 88],
        "英語": [95, 91, 86, 95, 83, 65],
    },
)

pd.pivot_table(df, values=["數學", "語文", "英語"], index=["年級"], columns=["姓名"])

image.png

姓名作為索引,年級作為列名的透視表:

pd.pivot_table(df, values=["數學", "語文", "英語"], index=["姓名"], columns=["年級"])

image.png

4. 同比和環比

同比和環比是統計中經常用到的概念,用來評估資料的變化情況,
同比一般指跟上一年度同一時期統計的資料的比較,環比一般指跟上一次統計的資料的比較,

原始資料如下(某同學初中三年每學期的平均分):

df = pd.DataFrame(
    {
        "年級": ["初一上", "初一下", "初二上", "初二下", "初三上", "初三下"],
        "平均分": [90, 85, 86, 80, 90, 88],
    },
)

df

image.png

環比就是看每個學期比上個學期是否進步:

df["平均分環比"] = df["平均分"].pct_change(periods=1)
df

image.png
第一條資料是NaN,因為它沒有上一條資料可以參考,
pct_change 得出的數值就是同比增長的百分比,負數表示下降的百分比,

同比就是比較每個學年同學期的成績變化,比如初二上初一上比較,初三下初二下比較等等,

df["平均分同比"] = df["平均分"].pct_change(periods=2)
df

image.png
我們觀察這個示例資料,同比環比的差別僅僅在于:同比是隔一個資料比較,而環比是相鄰的資料比較,

所以,用pct_change來計算同比的時候,只要設定periods引數為2即可,
periods引數默認為1,所以其實計算環比的時候也可以不設定periods引數,

5. 總結回顧

本篇介紹的資料統計時常用的幾種方法,其中分組統計透視表是使用比較頻繁的,
上面的示例主要介紹統計的函式,假造的資料非常簡單,其實在資料統計時,統計前清理資料,排序資料等才是耗費時間最長的程序,

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/554525.html

標籤:Python

上一篇:【技識訓累】Python中的Pandas庫【二】

下一篇:返回列表

標籤雲
其他(160512) Python(38209) JavaScript(25478) Java(18209) C(15237) 區塊鏈(8270) C#(7972) AI(7469) 爪哇(7425) MySQL(7235) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5873) 数组(5741) R(5409) Linux(5347) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4585) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2434) ASP.NET(2403) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1983) 功能(1967) HtmlCss(1952) Web開發(1951) C++(1933) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1879) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • 【pandas基礎】--資料統計

    在進行統計分析時,`pandas`提供了多種工具來幫助我們理解資料。 `pandas`提供了多個聚合函式,其中包括均值、標準差、最大值、最小值等等。 此外,`pandas`還可以進行基于列的統計分析,例如通過`groupby()`函式對資料進行聚合,并計算每組的統計分析結果。 除了基本的統計分析之外 ......

    uj5u.com 2023-06-08 07:54:42 more
  • 【技識訓累】Python中的Pandas庫【二】

    博客推行版本更新,成果積累制度,已經寫過的博客還會再次更新,不斷地琢磨,高質量高數量都是要追求的,工匠精神是學習必不可少的精神。因此,大家有何建議歡迎在評論區踴躍發言,你們的支持是我最大的動力,你們敢投,我就敢肝 ......

    uj5u.com 2023-06-08 07:54:38 more
  • 【python基礎】if陳述句-處理串列

    通過結合使用if陳述句和串列,可以完成一些程式上的需求,比如,對串列中特定的值做特殊處理 # 1.測驗特殊值 比如我們有一個學員名單,其中'劉柏宏'入學比較晚,需要我們重點關注,撰寫程式如下所示: ![image](https://img2023.cnblogs.com/blog/3179433/20 ......

    uj5u.com 2023-06-08 07:54:29 more
  • IO流 p11 Properties

    **# Properties類** - **基本介紹** ![](https://img2023.cnblogs.com/blog/3008601/202306/3008601-20230604103622859-1793594469.png) 1. 專門用于讀寫組態檔的集合類 組態檔的格式: ......

    uj5u.com 2023-06-08 07:54:02 more
  • SpringMVC引數接收與資料回應

    ## SpringMVC如何接受請求引數(普通型別引數/物件型別引數/陣列/json資料等) 1、普通型別引數 (1)在可以在方法引數上使用@RequestParam注解來系結請求引數,此注解允許指定請求引數的名稱,以及是否是必須傳的引數。 ~~~java @RequestMapping("/exa ......

    uj5u.com 2023-06-08 07:53:56 more
  • vscode rest client

    # 安裝 略 # hello world > 1. 檔案地址: [https://marketplace.visualstudio.com/items?itemName=humao.rest-client](https://marketplace.visualstudio.com/items?ite ......

    uj5u.com 2023-06-08 07:48:38 more
  • 你沒見過的分庫分表原理決議和解決方案(一)

    # 你沒見過的分庫分表原理決議和解決方案(一) 高并發三駕馬車:分庫分表、MQ、快取。今天給大家帶來的就是分庫分表的干貨解決方案,哪怕你不用我的框架也可以從中聽到不一樣的結局方案和實作。 一款支持自動分表分庫的orm框架[`easy-query`](https://github.com/xuejmn ......

    uj5u.com 2023-06-07 08:52:31 more
  • 【QCustomPlot】下載

    ## 說明 使用 QCustomPlot 繪圖庫輔助開發時整理的學習筆記。同系列文章目錄可見 [《繪圖庫 QCustomPlot 學習筆記》目錄](https://www.cnblogs.com/young520/p/17461129.html)。本篇介紹 QCustomPlot 的下載。 [TOC ......

    uj5u.com 2023-06-07 08:46:38 more
  • 你沒見過的分庫分表原理決議和解決方案(一)

    # 你沒見過的分庫分表原理決議和解決方案(一) 高并發三駕馬車:分庫分表、MQ、快取。今天給大家帶來的就是分庫分表的干貨解決方案,哪怕你不用我的框架也可以從中聽到不一樣的結局方案和實作。 一款支持自動分表分庫的orm框架[`easy-query`](https://github.com/xuejmn ......

    uj5u.com 2023-06-07 08:35:02 more
  • 【QCustomPlot】下載

    ## 說明 使用 QCustomPlot 繪圖庫輔助開發時整理的學習筆記。同系列文章目錄可見 [《繪圖庫 QCustomPlot 學習筆記》目錄](https://www.cnblogs.com/young520/p/17461129.html)。本篇介紹 QCustomPlot 的下載。 [TOC ......

    uj5u.com 2023-06-07 08:29:05 more