我有一個PDF檔案,其中包含了一個大學的時間表,由asc時間表軟體生成。
資料看起來是這樣的,
在PDF檔案中大約有29個這樣的頁面。
我想為一個程式處理這些資料,因此希望它能以任何編程語言的可讀形式出現,最好是以C 或Python語言。
誰能指導我如何做到這一點?也許我可以使用一些庫來將這些資料轉換為使用C 的文本檔案?
我需要的資料是這樣的形式,
假設在C 中,我需要將這些資料轉換成文本檔案。
假設在C 中,我們有一個名為Section的類(一個物件將代表每個部分,例如 "BCS-1A "的物件或 "BCS-7E "物件等等)
因此,對于BCS-1A來說
Section Object:
section_name: "BCS-1A" // (section_name是一個字串資料成員)
//將有7個陣列,每個陣列代表一周的一天,每個陣列的大小為16。陣列的一個索引將代表這一天的一個時間段。因此,在這種情況下,
moday_schedule[16]; //它將是一個16大小的**鏈接的串列**陣列。每個索引可以是空的,也可以包含盡可能多的時隙。每個索引代表時間表中的時間段。例如,"0號 "索引將代表8:45至9:15的時間段,第16號索引將代表4:15至4:40的時間段,等等。
//例如,monday_schedule[0]將是EMPTY。
//monday_schedule[4]將包含一個物件,該物件將有以下資訊,。
// 主題。數字邏輯設計
//老師。Mirza Waqar Baig
//Sub-section: 無(在某些講座中會有一個小節)。
// Room: R-5
//monday_schedule[5] 也將包含同樣的資訊。
//monday_schedule[12] 將有兩個物件。
uj5u.com熱心網友回復:
我在GitHub上編譯了一個repository
我使用pdf2image首先將pdf轉換為影像檔案,并將這些檔案存盤在一個影像檔案夾中。
然后使用pytesseract將這些圖片轉換為txt檔案,并將這些txt檔案存盤在text檔案夾中。
之后,我對文本進行了一些格式化,并將其以csv格式存盤在csvs檔案夾中。
轉載請註明出處,本文鏈接:https://www.uj5u.com/yidong/328092.html
標籤:


