我一直在嘗試將一些 PDF 轉換為 .txt,但我在網上找到的大多數示例代碼都有相同的問題:它們一次只能轉換一頁。我對 python 有點陌生,我沒有找到如何撰寫 .GetPage() 方法的替代方法來一次轉換整個檔案。歡迎所有幫助。
import PyPDF2
pdfFileObject = open(r"F:\pdf.pdf", 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObject)
print(" No. Of Pages :", pdfReader.numPages)
pageObject = pdfReader.getPage(0)
print(pageObject.extractText())
pdfFileObject.close()
uj5u.com熱心網友回復:
你可以用一個for回圈來做到這一點。從回圈中的頁面中提取文本并將它們附加到串列中。
import PyPDF2
pages_text=[]
with open(r"F:\pdf.pdf", 'rb') as pdfFileObject:
pdfReader = PyPDF2.PdfFileReader(pdfFileObject)
print(" No. Of Pages :", pdfReader.numPages)
for page in range(pdfReader.numPages):
pageObject = pdfReader.getPage(page)
pages_text.append(pageObject.extractText())
print(pages_text)
轉載請註明出處,本文鏈接:https://www.uj5u.com/net/420848.html
標籤:
