主頁 > 後端開發 > 【pandas基礎】--資料讀取

【pandas基礎】--資料讀取

2023-05-05 07:53:23 後端開發

資料讀取是第一步,只有成功加載資料之后,后續的操作才有可能,

pandas可以讀取和匯入各種資料格式的資料,如CSV,Excel,JSON,SQL,HTML等,不需要手動撰寫復雜的讀取代碼,

1. 各類資料源

pandas提供了匯入各類常用檔案格式資料的介面,這里介紹3種最常用的加載資料的介面,

1.1 從 CSV 檔案讀取資料

讀取csv檔案的介面:read_csv()

import pandas as pd

# 此csv中包含一些中國人口的統計資訊
df = pd.read_csv("/path/to/china-population.csv")

df.head() # 顯示前5條資料

image.png

1.2 從 excel 檔案讀取資料

讀取excel檔案的介面:read_excel ()
讀取excel檔案時,默認讀取第一個sheet中的資料,

import pandas as pd

# 此excel中的資料與上面csv檔案中的一樣
df = pd.read_excel("/path/to/china-population.xlsx")

df.head() # 顯示前5條資料

image.png

1.3 從網路中讀取資料

除了從本地檔案中讀取資料之外,read_csvread_excel也可以直接從URL讀取資料,
比如,上面的csv檔案和excel檔案可以從下面的地址下載,
http://databook.top:8888/pandas/china-population.csv
http://databook.top:8888/pandas/china-population.xlsx

可以直接將URL傳給 read_csvread_excel,不用下載保存本地,

import pandas as pd

df = pd.read_csv("http://databook.top:8888/pandas/china-population.csv")
df_excel = pd.read_excel("http://databook.top:8888/pandas/china-population.xlsx")

2. 不同分隔符

csv 檔案中默認用逗號,分隔不同的欄位,不過,也有很多csv檔案不用逗號分隔,用其他生僻的符號來分隔,

import pandas as pd

df = pd.read_csv("http://databook.top:8888/pandas/china-population-sep.csv")
df.head()

image.png
檔案china-population-sep.csv|來分隔不同的欄位,直接讀取的話,變成只有一個欄位,

這時,要明確設定分隔符,

import pandas as pd

df = pd.read_csv("http://databook.top:8888/pandas/china-population-sep.csv", sep="|")
df.head()

image.png
這樣就得到了正確的資料結構,

3. 設定列名稱

除了可以設定分隔符之外,讀取資料時,也可以設定列的名稱,
上面的例子中,列的名稱都是字母的縮寫,讀取檔案時可以替換成中文名稱,

import pandas as pd

df = pd.read_csv(
    "http://databook.top:8888/pandas/china-population-sep.csv",
    sep="|",
    names=["年份數字", "年份", "指標編碼", "指標名稱", "人口數"],
)
df.head()

image.png

通過names引數設定列的名稱,names引數是個串列,其中元素的個數一般與列的數目保持一致,
如果names中元素個數少于列的數目,那么多出來的列會作為索引(關于索引index,后續會詳細介紹),

import pandas as pd

df = pd.read_csv(
    "http://databook.top:8888/pandas/china-population-sep.csv",
    sep="|",
    names=["指標編碼", "指標名稱", "人口數"],
)
df.head()

image.png

如果 names中元素個數多于列的數目,多出來的元素作為新增的空白列,

import pandas as pd

df = pd.read_csv(
    "http://databook.top:8888/pandas/china-population-sep.csv",
    sep="|",
    names=["年份數字", "年份", "指標編碼", "指標名稱", "人口數", "列名稱", "列名稱2"],
)
df.head()

image.png

上面的例子中,我們應該發現了一個問題,設定 names作為新的列名稱之后,原有的列名稱被當成了實際的資料,
也就是:
image.png

設定新的列名稱時,如果資料中包含列名稱的話,需要忽略掉這個名稱,
設定 header=0,忽略作為標題的第一行,
如果檔案本來就沒有標題的話,設定 header=None

import pandas as pd

df = pd.read_csv(
    "http://databook.top:8888/pandas/china-population-sep.csv",
    sep="|",
    header=0,
    names=["年份數字", "年份", "指標編碼", "指標名稱", "人口數"],
)
df.head()

image.png

4. 隨機生成資料

pandas支持從很多資料源讀取資料,不過,有時候我們只想嘗試嘗試 pandas中的一些方法,并不想創建資料源,

這時,可以通過 numpy包創建一個隨機的二維矩陣,直接將這個二維矩陣的資料匯入 pandas即可,
下面的例子創建了一個10行3列的資料集,

import pandas as pd
import numpy as np

data = https://www.cnblogs.com/wang_yb/archive/2023/05/04/np.random.rand(10,3)
df = pd.DataFrame(data, columns=["data1", "data2", "data3"])
df.head()

image.png

通過臨時創建的隨機資料,可以嘗試 pandas提供的各類介面,

5. 總結回顧

本篇了主要介紹了資料的讀取方法,重點介紹的是 csv 檔案的讀取方式,因為這是最常用的資料源,
其他資料源的讀取方式也大同小異,各種資料源的差異會體現在不同介面的引數上,

本文所用到的資料:

  1. http://databook.top:8888/pandas/china-population.csv
  2. http://databook.top:8888/pandas/china-population-sep.csv
  3. http://databook.top:8888/pandas/china-population.xlsx

本文關聯的微信視頻號短視頻:
pandas01-資料讀取.png

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/551601.html

標籤:其他

上一篇:一文吃透Tomcat核心知識點

下一篇:返回列表

標籤雲
其他(158394) Python(38117) JavaScript(25399) Java(18012) C(15221) 區塊鏈(8261) C#(7972) AI(7469) 爪哇(7425) MySQL(7157) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5871) 数组(5741) R(5409) Linux(5334) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4565) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2432) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1964) Web開發(1951) HtmlCss(1931) python-3.x(1918) 弹簧靴(1913) C++(1912) xml(1889) PostgreSQL(1874) .NETCore(1857) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • 【pandas基礎】--資料讀取

    資料讀取是第一步,只有成功加載資料之后,后續的操作才有可能。 pandas可以讀取和匯入各種資料格式的資料,如CSV,Excel,JSON,SQL,HTML等,不需要手動撰寫復雜的讀取代碼。 1. 各類資料源 pandas提供了匯入各類常用檔案格式資料的介面,這里介紹3種最常用的加載資料的介面。 1 ......

    uj5u.com 2023-05-05 07:53:23 more
  • 一文吃透Tomcat核心知識點

    架構 首先,看一下整個架構圖。最全面的Java面試網站 接下來簡單解釋一下。 Server:服務器。Tomcat 就是一個 Server 服務器。 Service:在服務器中可以有多個 Service,只不過在我們常用的這套 Catalina 容器的Tomcat 中只包含一個 Service,在 S ......

    uj5u.com 2023-05-05 07:52:47 more
  • SpringBoot匯出Word檔案的三種方式

    SpringBoot匯出Word檔案的三種方式 一、匯出方案 1、直接在Java代碼里創建Word檔案,設定格式樣式等,然后匯出。(略) 需要的見:https://blog.csdn.net/qq_42682745/article/details/120867432 2、富文本轉換后的HTML下載為 ......

    uj5u.com 2023-05-05 07:52:09 more
  • golang推薦的命名規范

    二 golang推薦的命名規范 很少見人總結一些命名規范,也可能是筆者孤陋寡聞, 作為一個兩年的golang 開發者, 我根據很多知名的專案,如 moby, kubernetess 等總結了一些常見的命名規范。 命名規范可以使得代碼更容易與閱讀, 更少的出現錯誤。 檔案命名規范 由于檔案跟包無任何關 ......

    uj5u.com 2023-05-05 07:51:51 more
  • golang基礎知識

    一 golang基礎知識 Go(又稱 Golang)是 Google 的 Robert Griesemer,Rob Pike 及 Ken Thompson 開發的一種計算機編程語言語言。 設計初衷 Go語言是谷歌推出的一種的編程語言,可以在不損失應用程式性能的情況下降低代碼的復雜性。谷歌首席軟體工程 ......

    uj5u.com 2023-05-05 07:51:41 more
  • 工匠回憶(二)

    接上文 4、條件分支控制流 避免分支嵌套,例外放在代碼片段最前面 4.1、歸約函式 4.2、條件運算式的封裝避免過長而導致可讀性下降 4.3、德摩根定律 4.4、and、or優先級 4.5、or短路效應 4.6、消失的分支 4.6.1、二分查找演算法 4.6.2、字典演算法 5、例外錯誤處理 無需多言 ......

    uj5u.com 2023-05-05 07:51:35 more
  • python 匿名函式(lambda函式)

    Python中的匿名函式是指沒有命名識別符號的函式,通常被稱為lambda函式。與普通函式不同,它們是一種更加簡潔的方式來撰寫小型臨時函式。在Python中,匿名函式使用關鍵字lambda來定義,其語法如下: lambda arguments: expression 其中,arguments表示函式參 ......

    uj5u.com 2023-05-05 07:51:31 more
  • 刺激!ChatGPT給我虛構了一本書?

    ChatGPT很強大,可以幫我們處理很多問題,但這些問題的答案的正確性您是否有考證過呢? 昨晚,DD就收到了一個有趣的反饋: 提問:有什么關于資料權限設計的資料推薦嗎? ChatGPT居然介紹了一本根本不存在的書《資料權限設計與實作》,作者居然還是我... 那么你在使用ChatGPT的時候,有碰到過 ......

    uj5u.com 2023-05-05 07:46:16 more
  • Django筆記三十五之admin后臺界面介紹

    本文首發于公眾號:Hunter后端 原文鏈接:Django筆記三十五之admin后臺界面介紹 這一篇介紹一下 Django 的后臺界面使用。 Django 自帶了一套后臺管理界面,可用于我們直接操作資料庫資料,本篇筆記目錄如下: 創建后臺賬號以及登錄操作 注冊后臺顯示的資料表 串列欄位的顯示操作 字 ......

    uj5u.com 2023-05-05 07:33:50 more
  • 【pandas基礎】--資料讀取

    資料讀取是第一步,只有成功加載資料之后,后續的操作才有可能。 pandas可以讀取和匯入各種資料格式的資料,如CSV,Excel,JSON,SQL,HTML等,不需要手動撰寫復雜的讀取代碼。 1. 各類資料源 pandas提供了匯入各類常用檔案格式資料的介面,這里介紹3種最常用的加載資料的介面。 1 ......

    uj5u.com 2023-05-05 07:33:38 more