將合并的pdf拆分為原始檔案-有解無憂

有沒有辦法在合并的 pdf 中識別單個檔案并相應地拆分它？

我正在處理的 pdf 包含單個檔案的組合掃描（主要是 OCR）。我想將其拆分回原始檔案。

這些原始檔案的長度和大小不標準（因此，adobe 按“頁數”或“檔案大小”拆分不是一個選項）。“頂級書簽”似乎對應于與單個檔案不同的東西，因此拆分它們也不會提供有用的結果。

我已經創建了該檔案的 xml 版本。我對它不太熟悉，但看過它后，我無法識別標準化標簽或指示新檔案開始的類似標簽。

這個問題的答案需要控制合并程序（我沒有），而這個問題的答案不起作用，因為我沒有可以拆分的標準化關鍵字。

最終，我想對幾百個 pdf 進行拆分。可以在此處找到要拆分的 pdf的示例。

uj5u.com熱心網友回復：

根據評論中的討論，一種做法是通過 python 決議頁面資訊（MediaBox）。但是，我更喜歡一些快速的命令列命令，而不是在這個輕量級上網本上撰寫和測驗更重的解決方案。

因此，我將構建一個腳本來處理檔案回圈并使用Xpdf 命令列工具將檔案傳遞給 Windows 控制臺

編輯實際上，大多數 Python 庫都傾向于包含 pdfinfo 的 poppler 版本（2022-01），因此您應該能夠通過您的庫呼叫或請求來自該變體的反饋。

在您的檔案上使用 PDFinfo 并將其限制為前 20 頁以進行快速測驗是

pdfinfo -f 1 -l 20 yourfile.pdf 并且回應將是適合比較的文本輸出：-

Title:          Microsoft Word - 20190702_Revision_CO2_Verordnung_Detailkommenta
re_SWISS_final
Subject:
Keywords:
Author:         heim
Creator:        PDF24 Creator
Producer:       GPL Ghostscript 9.25
CreationDate:   Thu Jul 18 17:36:26 2019
ModDate:        Thu Jul 18 17:36:26 2019
Tagged:         no
Form:           none
Pages:          223
Encrypted:      no
Page    1 size: 595 x 842 pts (A4) (rotated 0 degrees)
Page    2 size: 595 x 842 pts (A4) (rotated 0 degrees)
Page    3 size: 595.32 x 841.92 pts (A4) (rotated 0 degrees)
Page    4 size: 595.44 x 842.04 pts (A4) (rotated 0 degrees)
Page    5 size: 595.44 x 842.04 pts (A4) (rotated 0 degrees)
Page    6 size: 595.2 x 841.9 pts (A4) (rotated 0 degrees)
Page    7 size: 595.45 x 841.9 pts (A4) (rotated 0 degrees)
Page    8 size: 595.45 x 841.9 pts (A4) (rotated 0 degrees)
Page    9 size: 595.2 x 841.44 pts (rotated 0 degrees)
Page   10 size: 595.2 x 841.44 pts (rotated 0 degrees)
Page   11 size: 595.2 x 841.68 pts (rotated 0 degrees)
Page   12 size: 594.54 x 840.78 pts (rotated 0 degrees)
Page   13 size: 591.85 x 835.45 pts (rotated 0 degrees)
Page   14 size: 593.75 x 835.45 pts (rotated 0 degrees)
Page   15 size: 595.2 x 841.44 pts (rotated 0 degrees)
Page   16 size: 595.32 x 841.92 pts (A4) (rotated 0 degrees)
Page   17 size: 593.5 x 840.7 pts (rotated 0 degrees)
Page   18 size: 594.72 x 840.96 pts (rotated 0 degrees)
Page   19 size: 596 x 842 pts (A4) (rotated 0 degrees)
Page   20 size: 595.2 x 841.68 pts (rotated 0 degrees)
File size:      33926636 bytes
Optimized:      no
PDF version:    1.4

在命令列中，我可能只使用所需的頁面### 和 size: values（丟棄措辭）來使逐行匹配分析更容易。

我們可以看到，在這種情況下，正如@mkl 所懷疑的那樣，順序頁面存在一些共性。

上面的樣本少于 10%，可能不能代表完整的圖片，但它足以在連續頁面中配對 X 或 Y 值。我跑了 200 頁（在這臺慢速機器上幾秒鐘），緩慢閃爍的輸出有足夠的相似性，表明這是一個可行的部分答案。

大多數對在第一個值中匹配，但奇怪的是 13 和 14 在第二個值中匹配，但是注釋編號 6 與第二個值與 7 和 8 匹配但不是同一個檔案，因此可能需要交叉檢查這種情況。

轉載請註明出處，本文鏈接：https://www.uj5u.com/yidong/428376.html

標籤：Python r xml pdf 分裂

上一篇：經典ASP：如何顯示由Json回傳的PDF

下一篇：RmarkdownPDF：在橫向柔性表格PDF報告中添加頁碼