發現網上有專門做檔案格式轉換的網站,不過是要充會員才可以,今天來做一篇PDF轉換成Excel檔案的代碼實戰,希望大佬喜歡,哈哈,話不多說,馬上進入實戰環節,

【閱讀全文】
首先,我們一如既往的介紹一下需要用到的第三方庫,
import pdfplumber # 專門處理PDF檔案格式的檔案物件
import pandas as pd # 資料處理庫,常見的DtaFrame、Series資料物件處理
然后,再把相應的PDF資料提取出來并且保存在DataFrame資料物件中,
# 打開PDF檔案、得到PDF資料檔案物件
pdf_obj = pdfplumber.open('data.pdf')
# 這里我們以獲取第一頁的PDF資料為例
page_1 = pdf_obj.pages[0]
# 從得到的第一頁資料中提取表格資料
data_table = page_1.extract_table()
# 將提取到的資料表格轉換為DataFrame資料物件
data_frame = pd.DataFrame(data_table)
# 列印查看DataFrame資料
print(data_frame)
得到DataFrame資料物件之后,需要進行資料處理的話可以參考前面的文章DataFrame資料處理相關的知識點,
最后,將準備好的DataFrame資料物件保存成Excel格式的資料檔案就大功告成啦,
writer = pd.ExcelWriter('C:\\data.xlsx') # 設定檔案路徑
data_frame.to_excel(writer, index=None, startrow=1, encoding='utf-8',sheet_name='資料統計') # 設定Excel物件
ws = writer.sheets['資料統計'] # 寫入作業表名稱
ws.write_string(0, 0, '我是一個標題') # 添加標題
writer.save() # 保存

【往期精彩】
● sched 模塊中巨好用的輕量級定時任務神器scheduler!
● 不用再使用命令列打包成exe,有人寫出了UI應用,可視化UI界面對python程式進行打包的方法!
● 發現一個秘密:既python3.6之后字典竟然變成了有序集合,我再次驗證了一下!
● 這么多的內置函式能記住嗎?對python的68個內置函式分類總結!
● 必須要會的檔案操作物件File,python檔案讀寫操作利器!
● 你不知道的CS模式的行程管理工具,狀態監測、專案啟停一目了然!
● 如何將一個python應用以docker鏡像的方式來運行?
● python-celery專注于實作分布式異步任務處理、任務調度的插件!
● python遠程服務操作工具:fabric,遠程命令、本地命令、服務器操作利器!
● 辦公自動化:Python-win32com自動將word檔案轉換成pdf格式!
● pandas資料統計插件的連接函式concat()妙用,靈活處理資料物件!
● python超贊插件you-get,執行一行命令即可下載、命令列下載工具推薦!
● python常用轉義字串總結:各種字符轉義的不同、如何取消轉義字符效果?
● 如何使用python完成對WebService服務的呼叫?suds-py3插件安利一下!
歡迎關注作者公眾號【Python 集中營】,專注于后端編程,每天更新技術干貨,不定時分享各類資料!轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/346871.html
標籤:Python
上一篇:Python:給你們安排一波VIP音樂,看我是如何不充會員也能下載的
下一篇:Python入門(上)
