主頁 > 後端開發 > 【pandas基礎】--資料讀取

【pandas基礎】--資料讀取

2023-05-05 07:33:38 後端開發

資料讀取是第一步,只有成功加載資料之后,后續的操作才有可能,

pandas可以讀取和匯入各種資料格式的資料,如CSV,Excel,JSON,SQL,HTML等,不需要手動撰寫復雜的讀取代碼,

1. 各類資料源

pandas提供了匯入各類常用檔案格式資料的介面,這里介紹3種最常用的加載資料的介面,

1.1 從 CSV 檔案讀取資料

讀取csv檔案的介面:read_csv()

import pandas as pd

# 此csv中包含一些中國人口的統計資訊
df = pd.read_csv("/path/to/china-population.csv")

df.head() # 顯示前5條資料

image.png

1.2 從 excel 檔案讀取資料

讀取excel檔案的介面:read_excel ()
讀取excel檔案時,默認讀取第一個sheet中的資料,

import pandas as pd

# 此excel中的資料與上面csv檔案中的一樣
df = pd.read_excel("/path/to/china-population.xlsx")

df.head() # 顯示前5條資料

image.png

1.3 從網路中讀取資料

除了從本地檔案中讀取資料之外,read_csvread_excel也可以直接從URL讀取資料,
比如,上面的csv檔案和excel檔案可以從下面的地址下載,
http://databook.top:8888/pandas/china-population.csv
http://databook.top:8888/pandas/china-population.xlsx

可以直接將URL傳給 read_csvread_excel,不用下載保存本地,

import pandas as pd

df = pd.read_csv("http://databook.top:8888/pandas/china-population.csv")
df_excel = pd.read_excel("http://databook.top:8888/pandas/china-population.xlsx")

2. 不同分隔符

csv 檔案中默認用逗號,分隔不同的欄位,不過,也有很多csv檔案不用逗號分隔,用其他生僻的符號來分隔,

import pandas as pd

df = pd.read_csv("http://databook.top:8888/pandas/china-population-sep.csv")
df.head()

image.png
檔案china-population-sep.csv|來分隔不同的欄位,直接讀取的話,變成只有一個欄位,

這時,要明確設定分隔符,

import pandas as pd

df = pd.read_csv("http://databook.top:8888/pandas/china-population-sep.csv", sep="|")
df.head()

image.png
這樣就得到了正確的資料結構,

3. 設定列名稱

除了可以設定分隔符之外,讀取資料時,也可以設定列的名稱,
上面的例子中,列的名稱都是字母的縮寫,讀取檔案時可以替換成中文名稱,

import pandas as pd

df = pd.read_csv(
    "http://databook.top:8888/pandas/china-population-sep.csv",
    sep="|",
    names=["年份數字", "年份", "指標編碼", "指標名稱", "人口數"],
)
df.head()

image.png

通過names引數設定列的名稱,names引數是個串列,其中元素的個數一般與列的數目保持一致,
如果names中元素個數少于列的數目,那么多出來的列會作為索引(關于索引index,后續會詳細介紹),

import pandas as pd

df = pd.read_csv(
    "http://databook.top:8888/pandas/china-population-sep.csv",
    sep="|",
    names=["指標編碼", "指標名稱", "人口數"],
)
df.head()

image.png

如果 names中元素個數多于列的數目,多出來的元素作為新增的空白列,

import pandas as pd

df = pd.read_csv(
    "http://databook.top:8888/pandas/china-population-sep.csv",
    sep="|",
    names=["年份數字", "年份", "指標編碼", "指標名稱", "人口數", "列名稱", "列名稱2"],
)
df.head()

image.png

上面的例子中,我們應該發現了一個問題,設定 names作為新的列名稱之后,原有的列名稱被當成了實際的資料,
也就是:
image.png

設定新的列名稱時,如果資料中包含列名稱的話,需要忽略掉這個名稱,
設定 header=0,忽略作為標題的第一行,
如果檔案本來就沒有標題的話,設定 header=None

import pandas as pd

df = pd.read_csv(
    "http://databook.top:8888/pandas/china-population-sep.csv",
    sep="|",
    header=0,
    names=["年份數字", "年份", "指標編碼", "指標名稱", "人口數"],
)
df.head()

image.png

4. 隨機生成資料

pandas支持從很多資料源讀取資料,不過,有時候我們只想嘗試嘗試 pandas中的一些方法,并不想創建資料源,

這時,可以通過 numpy包創建一個隨機的二維矩陣,直接將這個二維矩陣的資料匯入 pandas即可,
下面的例子創建了一個10行3列的資料集,

import pandas as pd
import numpy as np

data = https://www.cnblogs.com/wang_yb/p/np.random.rand(10,3)
df = pd.DataFrame(data, columns=["data1", "data2", "data3"])
df.head()

image.png

通過臨時創建的隨機資料,可以嘗試 pandas提供的各類介面,

5. 總結回顧

本篇了主要介紹了資料的讀取方法,重點介紹的是 csv 檔案的讀取方式,因為這是最常用的資料源,
其他資料源的讀取方式也大同小異,各種資料源的差異會體現在不同介面的引數上,

本文所用到的資料:

  1. http://databook.top:8888/pandas/china-population.csv
  2. http://databook.top:8888/pandas/china-population-sep.csv
  3. http://databook.top:8888/pandas/china-population.xlsx

本文關聯的微信視頻號短視頻:
pandas01-資料讀取.png

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/551592.html

標籤:Python

上一篇:工匠回憶(二)

下一篇:返回列表

標籤雲
其他(158386) Python(38116) JavaScript(25399) Java(18012) C(15221) 區塊鏈(8261) C#(7972) AI(7469) 爪哇(7425) MySQL(7157) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5871) 数组(5741) R(5409) Linux(5334) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4565) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2432) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1964) Web開發(1951) HtmlCss(1931) python-3.x(1918) 弹簧靴(1913) C++(1912) xml(1889) PostgreSQL(1874) .NETCore(1857) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • 【pandas基礎】--資料讀取

    資料讀取是第一步,只有成功加載資料之后,后續的操作才有可能。 pandas可以讀取和匯入各種資料格式的資料,如CSV,Excel,JSON,SQL,HTML等,不需要手動撰寫復雜的讀取代碼。 1. 各類資料源 pandas提供了匯入各類常用檔案格式資料的介面,這里介紹3種最常用的加載資料的介面。 1 ......

    uj5u.com 2023-05-05 07:33:38 more
  • 工匠回憶(二)

    接上文 4、條件分支控制流 避免分支嵌套,例外放在代碼片段最前面 4.1、歸約函式 4.2、條件運算式的封裝避免過長而導致可讀性下降 4.3、德摩根定律 4.4、and、or優先級 4.5、or短路效應 4.6、消失的分支 4.6.1、二分查找演算法 4.6.2、字典演算法 5、例外錯誤處理 無需多言 ......

    uj5u.com 2023-05-05 07:33:34 more
  • python 匿名函式(lambda函式)

    Python中的匿名函式是指沒有命名識別符號的函式,通常被稱為lambda函式。與普通函式不同,它們是一種更加簡潔的方式來撰寫小型臨時函式。在Python中,匿名函式使用關鍵字lambda來定義,其語法如下: lambda arguments: expression 其中,arguments表示函式參 ......

    uj5u.com 2023-05-05 07:33:30 more
  • Python網路爬蟲原理及實踐

    網路爬蟲:是一種按照一定的規則,自動地抓取萬維網資訊的程式或者腳本。網路爬蟲相關技術和框架繁多,針對場景的不同可以選擇不同的網路爬蟲技術。 ......

    uj5u.com 2023-05-05 07:33:24 more
  • 使用python查看五黃及羅猴

    應多位風水道友之要求,特在 https://github.com/china-testing/bazi 增加查看五黃及羅猴功能。 如何查看五黃 五黃是風水理氣中九宮飛星的最兇之星,凡是修造、下葬都要避開。 首先要避開當年五黃的方向作為朝向。比如2023年,西北方向是五黃,不能朝向西北,也不能在房子西 ......

    uj5u.com 2023-05-05 07:33:10 more
  • 工匠回憶(一)

    不久之前看過《python工匠》,騰訊大佬朱磊寫的,后來一段時間零零散散也會翻開看看,強烈推薦!!! 1、變數注釋 變數與注釋是最接近自然語言的東西,把變數與注釋搞好,同樣一段代碼,卻帶來兩種截然不同的體驗 1.1、變數開辟的必要性 1.2、變數注意靠近使用 1.3、注意變數描述性要強、同時注意其長 ......

    uj5u.com 2023-05-05 07:27:51 more
  • PHP獲取時間戳、獲取天周月的起始時間、指定時間所在周、指定時

    一、時間戳和日期互相轉換 // 獲取時間戳 $date = time(); // 獲取當前時間戳 $date = mktime(0, 0, 0, 10, 10, 2020); // 獲取指定時間的時間戳 2020年10月10日0時0分0秒 // 日期轉換為時間戳 $date = "2019-08-0 ......

    uj5u.com 2023-05-05 07:27:31 more
  • 訊息推送平臺終于要發布啦!

    我的開源專案訊息推送平臺Austin終于要上線了,迎來在線演示的第一版! 🔥專案在線演示地址:http://139.9.73.20:3000/ 訊息推送平臺🔥推送下發【郵件】【短信】【微信服務號】【微信小程式】【企業微信】【釘釘】等訊息型別。 https://gitee.com/zhongfuc ......

    uj5u.com 2023-05-05 07:25:39 more
  • <四>move移動語意和forward型別轉發

    move : 移動語意,得到右值型別 forward:型別轉發,能夠識別左值和右值型別 只有兩種形式的參考,左值參考和右值參考,萬能參考不是一種參考型別,它存在于模板的參考折疊情況,但是能夠接受左值和右值 區分左值和右值得一個簡單方式就是能不能取地址 一個右值一旦有名字那么就變成了左值 #inclu ......

    uj5u.com 2023-05-04 07:32:53 more
  • Python編程無師自通:專業程式員的養成-術語表

    術語表 第一章 FizzBuzz 用來編程面試中篩選候選者的測驗。 作業系統 扮演計算機物理組件與人之間的中間人的一個程式。 圖形用戶界面(GUI) 作業系統的一部分,用戶在螢屏上看到的內容。 開源 軟體不歸某個公司或個人所有,而是由一群志愿者維護。 Windows 微軟推出的作業系統。 UNIX ......

    uj5u.com 2023-05-04 07:27:32 more