這是我一直在嘗試輸出的代碼:
import fitz
import pandas as pd
doc = fitz.open('xyz.pdf')
page1 = doc[0]
words = page1.get_text("words")
first_annots=[]
rec=page1.first_annot.rect
記錄
輸出:

我期望的輸出是所有要單獨識別和呼叫的文本矩形。我在這里找到了我正在實施的代碼:https ://www.analyticsvidhya.com/blog/2021/06/data-extraction-from-unstructured-pdfs/
uj5u.com熱心網友回復:
獨立于您的總體意圖(決議非結構化文本):通過訪問頁面的注釋page.first_annot完全沒有意義。
您的例外是由于該頁面頁面沒有注釋這一事實引起的,因此當然page.first_annot是None。
再次重申:是否有注釋與頁面的文字無關。根本不訪問page.first_annot。
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/529992.html
