Microsoft Office 被廣泛用于商務和運營分析中, 其中 Excel 尤其受歡迎,Excel 可以用于存盤表格資料、創建報告、圖形趨勢等,在深入研究用 Python 處理 Excel 檔案之前,讓我們先了解一些基本術語:
Spreadsheet(電子表格) 或者 Workbook(作業簿) – 指檔案本身(.xls or .xlsx).
Worksheet(作業表) 或者 Sheet(表)–作業簿中的單個內容表,電子表格可以包含多個作業表,
Column(列) – 用英文字母標記的垂直數列,以“ A”開頭,
Row(行) – 從1開始以數字標記的水平數列,
Cell(單元格) – 列和行的組合,例如“ A1”,
在本文中,我們來使用Python處理Excel電子表格,您將了解以下內容:
Python 讀寫 Excel 的第三方庫
從作業簿中獲取作業表
讀取單元格資料
遍歷行和列
寫入 Excel 電子表格
添加和洗掉作業表
添加和洗掉行和列
大多數公司和大學都使用Excel,它可以用多種不同方式使用,并可以使用Visual Basic for Applications(VBA)進行增強,但是,VBA有點笨拙,這就是為什么要學習如何將 Excel 與 Python 結合使用,
現在讓我們了解如何使用 Python 處理 Microsoft Excel 電子表格!
Python 處理 Excel 的第三方庫
您可以使用 Python 創建、讀取和撰寫 Excel 電子表格,但是,Python 的標準庫不支持使用 Excel,為此您需要安裝第三方軟體包,其中最受歡迎的是OpenPyXL,您可以在此處閱讀其檔案:
https://openpyxl.readthedocs.io/en/stable/
OpenPyXL 并不是您唯一的選擇,其實還有其他幾個支持 Microsoft Excel 的軟體包:
xlrd – 用于讀取舊格式的 Excel (.xls) 檔案
xlwt – 用于寫入舊格式的 Excel (.xls) 檔案
xlwings – 用于新格式的Excel格式并具有宏功能
幾年前,前兩個曾經是 Python 操作 Excel 檔案的最受歡迎的庫,然而,這些軟體包的作者已停止維護它們,xlwings軟體包潛力很大,但是不能在所有平臺上都起作用,并且需要安裝 Microsoft Excel,
您將在本文中使用 OpenPyXL,因為它是在持續開發和維護的,OpenPyXL 不需要安裝 Microsoft Excel,并且可以在所有平臺上使用,
你可以用 pip 命令來安裝 OpenPyXL:
$ python -m pip install openpyxl
安裝完成后,讓我們了解如何使用 OpenPyXL 讀取 Excel 電子表格!
從作業簿中獲取作業表
第一步是找到一個與 OpenPyXL 一起使用的Excel檔案,本文專案的Github存盤庫中為您提供了一個books.xlsx檔案,您可以通過以下網址下載它:
https://github.com/driscollis/python101code/tree/master/chapter38_excel
您也可以用自己的檔案,盡管您自己檔案的輸出內容與本文中的示例并不一樣,
下一步是撰寫一些代碼來打開電子表格,為此請創建一個名為open_workbook.py的新檔案,并將以下代碼添加到其中:
# open_workbook.py
from openpyxl import load_workbook
def open_workbook(path):
workbook = load_workbook(filename=path)
print(f'Worksheet names: {workbook.sheetnames}')
sheet = workbook.active
print(sheet)
print(f'The title of the Worksheet is: {sheet.title}')
if __name__ == '__main__':
open_workbook('books.xlsx')
在上述示例中,您從 openpyxl 匯入 load_workbook()函式,然后創建open_workbook()函式,以將其匯入Excel電子表格的路徑中,接下來,使用load_workbook()創建一個openpyxl.workbook.workbook.Workbook物件,該物件使您可以訪問電子表格中的作業表和單元格,它確實確實具有雙重作業簿的名稱,那不是錯字!
open_workbook()函式的其余部分演示了如何列印出電子表格中所有當前定義的作業表,如何獲取當前活動的作業表以及如何列印該作業表的標題,
運行此代碼時,將看到以下輸出:
Worksheet names: ['Sheet 1 - Books']
<Worksheet "Sheet 1 - Books">
The title of the Worksheet is: Sheet 1 - Books
既然已經知道如何訪問電子表格中的作業表,下面就可以繼續訪問單元格資料了!
讀取單元格資料
使用Microsoft Excel時,資料存盤在單元格中,您需要使 Python 能訪問這些單元格,以便提取該資料,OpenPyXL使這個程序變得很簡單,
創建一個名為workbook_cells.py的新檔案,并添加以下代碼:
# workbook_cells.py
from openpyxl import load_workbook
def get_cell_info(path):
workbook = load_workbook(filename=path)
sheet = workbook.active
print(sheet)
print(f'The title of the Worksheet is: {sheet.title}')
print(f'The value of {sheet["A2"].value=}')
print(f'The value of {sheet["A3"].value=}')
cell = sheet['B3']
print(f'{cell.value=}')
if __name__ == '__main__':
get_cell_info('books.xlsx')
此腳本將在 OpenPyXL 作業簿中加載 Excel 檔案,您將獲取當前作業表,然后列印出其標題和幾個不同的單元格值,您可以通過以下方式訪問單元格:使用作業表物件,后跟方括號以及其中的列名和行號,例如,sheet ["A2"]將為您獲取第2行 A列的單元格,要獲取該單元格的值,請使用value屬性,
注意:這段代碼使用的是 Python 3.8 中f-字串格式化的新功能,如果使用較早的版本運行它,將會收到報錯訊息,
運行此代碼時,將獲得以下輸出:
<Worksheet "Sheet 1 - Books">
The title of the Worksheet is: Sheet 1 - Books
The value of sheet["A2"].value='Title'
The value of sheet["A3"].value='Python 101'
cell.value='Mike Driscoll'
您可以嘗試使用它的某些其他屬性來獲取有關單元格的其他資訊,將以下函式添加到檔案中,并在最后更新條件陳述句來運行它:
def get_info_by_coord(path):
workbook = load_workbook(filename=path)
sheet = workbook.active
cell = sheet['A2']
print(f'Row {cell.row}, Col {cell.column} = {cell.value}')
print(f'{cell.value=} is at {cell.coordinate=}')
if __name__ == '__main__':
get_info_by_coord('books.xlsx')
在此示例中,您將使用單元格物件的行和列屬性來獲取行和列資訊,注意,“ A”列映射為“ 1”,“ B”映射為“ 2”,等等,如果要遍歷Excel檔案,則可以使用坐標屬性來獲取單元格名稱,
運行此代碼時,輸出如下所示:
Row 2, Col 1 = Title
cell.value='Title' is at cell.coordinate='A2'
說到遍歷,讓我們來看一下接下來該下一步的方法!
遍歷行和列
有時,您將需要遍歷整個Excel電子表格或電子表格的某些部分,OpenPyXL允許您以幾種不同的方式執行此操作,創建一個名為iterating_over_cells.py的新檔案,并向其中寫入以下代碼:
# iterating_over_cells.py
from openpyxl import load_workbook
def iterating_range(path):
workbook = load_workbook(filename=path)
sheet = workbook.active
for cell in sheet['A']:
print(cell)
if __name__ == '__main__':
iterating_range('books.xlsx')
在這里,您加載了電子表格,然后遍歷“ A”列中的所有單元格,對于每個單元格,將列印出單元格物件,如果要更精細地格式化輸出,則可以使用在上一節中提到的一些單元格屬性,
這是通過運行此代碼得到的:
<Cell 'Sheet 1 - Books'.A1>
<Cell 'Sheet 1 - Books'.A2>
<Cell 'Sheet 1 - Books'.A3>
<Cell 'Sheet 1 - Books'.A4>
<Cell 'Sheet 1 - Books'.A5>
<Cell 'Sheet 1 - Books'.A6>
<Cell 'Sheet 1 - Books'.A7>
<Cell 'Sheet 1 - Books'.A8>
<Cell 'Sheet 1 - Books'.A9>
<Cell 'Sheet 1 - Books'.A10>
# output truncated for brevity
輸出被截斷,因為默認情況下它將列印出很多單元格,OpenPyXL通過使用iter_rows()和iter_cols()函式提供了其他遍歷行和列的方法,這些方法接受下面幾個引數:
min_rowmax_rowmin_colmax_col
您還可以添加一個values_only引數,該引數告訴OpenPyXL回傳單元格而不是單元格物件的值,繼續創建一個名為iterating_over_cell_values.py的新檔案,并將以下代碼添加到其中:
# iterating_over_cell_values.py
from openpyxl import load_workbook
def iterating_over_values(path):
workbook = load_workbook(filename=path)
sheet = workbook.active
for value in sheet.iter_rows(
min_row=1, max_row=3,
min_col=1, max_col=3,
values_only=True,
):
print(value)
if __name__ == '__main__':
iterating_over_values('books.xlsx')
此代碼演示了如何使用iter_rows()迭代Excel電子表格中的行并列印出這些行的值,運行此代碼時,將獲得以下輸出:
('Books', None, None)
('Title', 'Author', 'Publisher')
('Python 101', 'Mike Driscoll', 'Mouse vs Python')
輸出是一個Python元組,其中包含每一列中的資料,至此,您已經了解了如何打開電子表格并從特定單元格以及通過迭代讀取資料,現在,您準備學習如何使用OpenPyXL創建Excel電子表格!
寫入 Excel 電子表格
使用OpenPyXL寫入Excel電子表格不需要很多代碼,您可以使用Workbook()類創建電子表格,繼續創建一個名為Writing_hello.py的新檔案,并添加以下代碼:
# writing_hello.py
from openpyxl import Workbook
def create_workbook(path):
workbook = Workbook()
sheet = workbook.active
sheet['A1'] = 'Hello'
sheet['A2'] = 'from'
sheet['A3'] = 'OpenPyXL'
workbook.save(path)
if __name__ == '__main__':
create_workbook('hello.xlsx')
在這里,初始化Workbook()并獲取當前作業表,然后將“ A”列中的前三行設定為不同的字串,最后,呼叫save()函式并向其傳遞新檔案保存到的路徑,恭喜你!您剛剛使用Python創建了一個Excel電子表格,
接下來,讓我們看一下如何在作業簿中添加和洗掉作業表!
添加和洗掉作業表
許多人喜歡在作業簿中的多個作業表中處理資料,OpenPyXL支持通過其create_sheet()方法向Workbook()物件添加新作業表,
創建一個名為creating_sheets.py的新檔案,并添加以下代碼:
# creating_sheets.py
import openpyxl
def create_worksheets(path):
workbook = openpyxl.Workbook()
print(workbook.sheetnames)
# Add a new worksheet
workbook.create_sheet()
print(workbook.sheetnames)
# Insert a worksheet
workbook.create_sheet(index=1,
title='Second sheet')
print(workbook.sheetnames)
workbook.save(path)
if __name__ == '__main__':
create_worksheets('sheets.xlsx')
在這里,您使用了兩次create_sheet()將兩個新的作業表添加到作業簿中,第二個示例顯示了如何設定作業表的標題以及在哪個索引處插入作業表,引數index = 1表示該作業表將在第一個現有作業表之后添加,因為它們的索引從0開始,
運行此代碼時,將看到以下輸出:
['Sheet']
['Sheet', 'Sheet1']
['Sheet', 'Second sheet', 'Sheet1']
您可以看到新作業表已逐步添加到您的作業簿中,保存檔案后,可以通過打開Excel或另一個與Excel兼容的應用程式來驗證是否存在多個作業表,
在完成自動作業表創建程序之后,突然有了太多的作業表,因此讓我們來洗掉一些作業表,有兩種方法可以洗掉作業表, 繼續并創建delete_sheets.py檔案,以了解如何使用 Python 的 del方法洗掉作業表:
# delete_sheets.py
import openpyxl
def create_worksheets(path):
workbook = openpyxl.Workbook()
workbook.create_sheet()
# Insert a worksheet
workbook.create_sheet(index=1,
title='Second sheet')
print(workbook.sheetnames)
del workbook['Second sheet']
print(workbook.sheetnames)
workbook.save(path)
if __name__ == '__main__':
create_worksheets('del_sheets.xlsx')
此代碼將創建一個新的作業簿,然后向其中添加兩個新的作業表,再使用Python的del方法洗掉workbook['Second sheet'],您可以通過查看在使用del命令之前和之后作業表串列的列印輸出來驗證它是否按預期作業:
['Sheet', 'Second sheet', 'Sheet1']
['Sheet', 'Sheet1']
從作業簿中洗掉作業表的另一種方法是使用remove()方法,創建一個名為remove_sheets.py的新檔案,并輸入以下代碼以了解其作業原理:
# remove_sheets.py
import openpyxl
def remove_worksheets(path):
workbook = openpyxl.Workbook()
sheet1 = workbook.create_sheet()
# Insert a worksheet
workbook.create_sheet(index=1,
title='Second sheet')
print(workbook.sheetnames)
workbook.remove(sheet1)
print(workbook.sheetnames)
workbook.save(path)
if __name__ == '__main__':
remove_worksheets('remove_sheets.xlsx')
此時您可以通過將結果分配給sheet1來保留對所創建的第一個作業表的參考,然后稍后在代碼中將其洗掉,另外,您也可以使用與之前相同的語法洗掉該作業表,如下所示:
workbook.remove(workbook['Sheet1'])
無論選擇哪種方法洗掉作業表,輸出內容都將相同:
['Sheet', 'Second sheet', 'Sheet1']
['Sheet', 'Second sheet']
現在,繼續學習如何添加和洗掉行和列,
添加、洗掉行和列
OpenPyXL具有幾種的方法,可用于在電子表格中添加、洗掉行和列,這是在本節中將要學習的四種方法:
.insert_rows().delete_rows().insert_cols().delete_cols()
每一個都可以使用下面兩個引數:
idx–插入行或列的索引amount–要添加的行數或列數
要查看其作業原理,請創建一個名為insert_demo.py的檔案,并向其中添加以下代碼:
# insert_demo.py
from openpyxl import Workbook
def inserting_cols_rows(path):
workbook = Workbook()
sheet = workbook.active
sheet['A1'] = 'Hello'
sheet['A2'] = 'from'
sheet['A3'] = 'OpenPyXL'
# insert a column before A
sheet.insert_cols(idx=1)
# insert 2 rows starting on the second row
sheet.insert_rows(idx=2, amount=2)
workbook.save(path)
if __name__ == '__main__':
inserting_cols_rows('inserting.xlsx')
在這里,您將創建一個作業表,并在“ A”列之前插入一個新列,列的索引從1開始,而作業表的索引從0開始,這有效地將A列中的所有單元格移到B列,然后從第2行開始插入兩個新行,
現在您知道了如何插入列和行,是時候來了解如何洗掉它們了,
要了解如何洗掉列或行,請創建一個名為delete_demo.py的新檔案并添加以下代碼:
# delete_demo.py
from openpyxl import Workbook
def deleting_cols_rows(path):
workbook = Workbook()
sheet = workbook.active
sheet['A1'] = 'Hello'
sheet['B1'] = 'from'
sheet['C1'] = 'OpenPyXL'
sheet['A2'] = 'row 2'
sheet['A3'] = 'row 3'
sheet['A4'] = 'row 4'
# Delete column A
sheet.delete_cols(idx=1)
# delete 2 rows starting on the second row
sheet.delete_rows(idx=2, amount=2)
workbook.save(path)
if __name__ == '__main__':
deleting_cols_rows('deleting.xlsx')
此代碼在多個單元格中創建文本,然后使用delete_cols()洗掉A列,它還通過delete_rows()從第二行開始洗掉兩行,在處理資料時,能夠添加、洗掉列和行會非常有用,
總結
由于Excel在許多行業中得到廣泛使用,因此能夠使用Python與Excel檔案進行互動是一項非常有用的技能,比如幫妹紙處理運營資料,在本文中,您掌握了以下內容:
Python 處理 Excel的第三方軟體包
從作業簿中獲取作業表
讀取單元格資料
遍歷行和列
寫入 Excel 電子表格
添加和洗掉作業表
添加、洗掉行和列
OpenPyXL可以做的甚至比這里介紹的還要多,例如,您可以使用OpenPyXL將公式添加到單元格,更改字體并將其他型別的樣式應用于單元格,老老實實地閱讀檔案,并嘗試在自己的一些電子表格上使用OpenPyXL,以便充分利用其功能,
往期推薦
5分鐘完全掌握PyPy
5 分鐘掌握 Python 中常見的組態檔
OpenCV人工智能影像識別技術實操案例
點擊下方閱讀原文加入社區會員
點贊鼓勵一下
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/223106.html
標籤:其他
上一篇:Python 漢字轉url 引數
