使用Apache PDFBox實作拆分、合并PDF-有解無憂

使用Apache PDFBox實作拆分、合并PDF
- 問題背景
- Apache PDFBox介紹
- 拆分PDF
- 合并PDF
- 拆分 + 合并
- 完整代碼
- 參考：

使用Apache PDFBox實作拆分、合并PDF

問題背景

如何拆分PDF？
如何合并PDF？
如何拆分并合并PDF實作去除PDF的某些頁？

Apache PDFBox介紹

Apache PDFBox 1.8.10官方檔案

Apache PDFBox 庫是一個開源的 Java 工具，用于處理 PDF 檔案，該專案允許創建新的PDF檔案，操作現有檔案以及從檔案中提取內容的能力， PDFBox還包括幾個命令列實用程式，PDFBox 發布在 Apache 許可證下，版本 2.0，

也就是說，我們可以使用PDFBox實作拆分、合并PDF，

在maven專案中添加依賴：

        <!--PDF操作-->
        <dependency>
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>pdfbox-app</artifactId>
            <version>1.8.10</version>
        </dependency>

拆分PDF

我們需實作WPS這種按照范圍拆分的拆分規則：
pdf拆分規則

參考樣例

以下是wiki教程中找到的樣例，可以實作按照每頁拆分成pdf，

public static void main(String[] args) throws IOException {
      //Loading an existing PDF document
      File file = new File("C:/PdfBox_Examples/sample.pdf");
      PDDocument document = PDDocument.load(file); 
      //Instantiating Splitter class
      Splitter splitter = new Splitter();
      //splitting the pages of a PDF document
      List<PDDocument> Pages = splitter.split(document);
      //Creating an iterator 
      Iterator<PDDocument> iterator = Pages.listIterator();
      //Saving each page as an individual document
      int i = 1;
      while(iterator.hasNext()) {
         PDDocument pd = iterator.next();
         pd.save("C:/PdfBox_Examples/sample"+ i++ +".pdf");
      }
      System.out.println("Multiple PDF’s created");
      document.close();
   }

org.apache.pdfbox.util.Splitter 類

Splitter 類有三個拆分相關的引數

    private int splitAtPage = 1;
    private int startPage = -2147483648;
    private int endPage = 2147483647;

分別代表拆分的頁數范圍，開始拆分的頁數，結束拆分的頁數，

也就是說，我們可以通過實作設定splitter的相關引數（如splitter.setStartPage(12)等）來實作按照范圍拆分的功能，

匹配拆分規則

建立SplitterDTO

/**
 * Splitter類的配置
 */
@Data
class SplitterDTO {
    private int splitAtPage;
    private int startPage;
    private int endPage;
}

使用正則運算式校驗按照范圍拆分的拆分規則，將其引數保存在List<SplitterDTO>中：

    // m-n 例如 3-5，拆分第三到第五頁的pdf
    private static final String ruleOne = "^[1-9]\\d*-[1-9]\\d*$";
    // m 例如 7，拆分第七頁的pdf
    private static final String ruleTwo = "^[1-9]\\d*$";
    /**
     * 正則校驗匹配  拆分規則
     * @param splitRule 拆分規則
     * @return
     */
    private List<SplitterDTO> matchByRegex(String splitRule) {
        List<SplitterDTO> result = new ArrayList<>();
        String[] splits = splitRule.split(",");
        for (String split : splits) {
            SplitterDTO dto = new SplitterDTO();
            if (split.matches(ruleOne)) {
                String[] nums = split.split("-");
                dto.setStartPage(Integer.parseInt(nums[0]));
                dto.setEndPage(Integer.parseInt(nums[1]));
                // 拆分的長度
                dto.setSplitAtPage(dto.getEndPage() - dto.getStartPage() + 1);
                result.add(dto);
            } else if (split.matches(ruleTwo)) {
                dto.setStartPage(Integer.parseInt(split));
                dto.setEndPage(Integer.parseInt(split));
                dto.setSplitAtPage(1);
                result.add(dto);
            } else {
                System.out.println("錯誤的規則：" + split);
            }
        }
        return result;
    }

根據拆分規則拆分PDF

根據拆分規則開始拆分PDF并保存為pdf，

    /**
     * 拆分pdf
     * @param sourcePdf 源pdf（路徑+檔案名+檔案后綴）
     * @param splitPath 拆分后的檔案路徑
     * @param splitFileName 拆分后的檔案名（不含后綴）
     * @param splitterDTOS 拆分規則
     * @return finalPdfs 最終拆分成的pdf
     */
    private List<String> spitPdf(String sourcePdf, String splitPath, String splitFileName, List<SplitterDTO> splitterDTOS) throws IOException, COSVisitorException {
        List<String> finalPdfs = new ArrayList<>();
        int j = 1;
        String splitPdf = splitPath + "\\" + splitFileName + "_";

        for (SplitterDTO splitterDTO : splitterDTOS) {
            // Loading an existing PDF document
            File file = new File(sourcePdf);
            PDDocument document = PDDocument.load(file);
            // Instantiating Splitter class
            Splitter splitter = new Splitter();
            splitter.setStartPage(splitterDTO.getStartPage());
            splitter.setSplitAtPage(splitterDTO.getSplitAtPage());
            splitter.setEndPage(splitterDTO.getEndPage());
            // splitting the pages of a PDF document
            List<PDDocument> Pages = splitter.split(document);
            // Creating an iterator
            Iterator<PDDocument> iterator = Pages.listIterator();
            // Saving each page as an individual document
            while(iterator.hasNext()) {
                PDDocument pd = iterator.next();
                String pdfName = splitPdf+ j++ +".pdf";
                pd.save(pdfName);
                finalPdfs.add(pdfName);
            }
//            System.out.println("Multiple PDF’s created");
            document.close();
        }

        return finalPdfs;
    }

拆分測驗

    public static void main(String[] args) throws Exception {

        // 拆分規則：如拆分成1-4，5，以及8三個pdf
        String splitRule = "1-4,5,8";
        String sourcePdf = "D:\\BaiduNetdiskDownload\\test\\測驗用pdf.pdf";
        // 拆分后pdf所放的檔案夾
        String splitPath = "D:\\BaiduNetdiskDownload\\test";
        // 拆分后的檔案名
        String splitFileName = UUID.randomUUID().toString().replace("-", "");
        /**
         * 1、拆分
         */
        PdfUtils pdfUtils = new PdfUtils();
        List<SplitterDTO> splitterDTOS = pdfUtils.matchByRegex(splitRule);
        List<String> pdfList = pdfUtils.spitPdf(sourcePdf, splitPath, splitFileName, splitterDTOS);
        System.out.println("pdf檔案拆分成功------------");
        pdfList.forEach(System.out::println);
    }

控制臺輸出結果：

pdf檔案拆分成功------------
D:\BaiduNetdiskDownload\test\a5f1b001f2d64a75ac63e75bdb4809e6_1.pdf
D:\BaiduNetdiskDownload\test\a5f1b001f2d64a75ac63e75bdb4809e6_2.pdf
D:\BaiduNetdiskDownload\test\a5f1b001f2d64a75ac63e75bdb4809e6_3.pdf

對應檔案夾生成三個pdf檔案：
PDF拆分測驗

合并PDF

代碼

    /**
     * 合并PDF
     * @param inputStreams 需合并的pdf檔案流
     * @param bothPath 合并后的pdf檔案路徑
     * @param destinationFileName 合并后的pdf檔案名
     */
    public static void MergePdf(List<InputStream> inputStreams, String bothPath, String destinationFileName) throws Exception {
        // org.apache.pdfbox.util.PDFMergerUtility：pdf合并工具類
        PDFMergerUtility mergePdf = new PDFMergerUtility();
        File file = new File(bothPath);
        if (!file.exists()) {
            file.mkdirs();
        }
        mergePdf.addSources(inputStreams);
        // 設定合并生成pdf檔案名稱
        mergePdf.setDestinationFileName(bothPath + File.separator + destinationFileName);
        // 合并PDF
        mergePdf.mergeDocuments();
        for (InputStream in : inputStreams) {
            if (in != null) {
                in.close();
            }
        }
    }

合并測驗

    public static void main(String[] args) throws Exception {

        /**
         * 合并
         */
        // 合并pdf生成的檔案名
        String destinationFileName = DateUtils.format(new Date());
        // 需要合并的PDF檔案
        List<InputStream> inputStreams = new ArrayList<>();
        inputStreams.add(new FileInputStream(new File("D:\\ToPDF\\pdf\\水印沖鴨.pdf")));
        inputStreams.add(new FileInputStream(new File("D:\\ToPDF\\pdf\\testtest.pdf")));
        // 合并后pdf存放路徑
        String bothPath = "D:\\ToPDF\\pdf";
        MergePdf(inputStreams, bothPath, destinationFileName+"測驗合并.pdf");
        System.out.println("pdf檔案合并成功");
    }

控制臺輸出結果：

pdf檔案合并成功

對應檔案夾生成合并的pdf檔案：
PDF拆分測驗

拆分 + 合并

測驗代碼

    public static void main(String[] args) throws Exception {

        // 拆分規則：如拆分成1-4，5，以及8三個pdf
        String splitRule = "1-4,5,8";
        String sourcePdf = "D:\\BaiduNetdiskDownload\\test\\測驗用pdf.pdf";
        // 拆分后pdf所放的檔案夾
        String splitPath = "D:\\BaiduNetdiskDownload\\test";
        // 拆分后的檔案名
        String splitFileName = UUID.randomUUID().toString().replace("-", "");
        /**
         * 1、拆分
         */
        PdfUtils pdfUtils = new PdfUtils();
        List<SplitterDTO> splitterDTOS = pdfUtils.matchByRegex(splitRule);
        List<String> pdfList = pdfUtils.spitPdf(sourcePdf, splitPath, splitFileName, splitterDTOS);
        System.out.println("pdf檔案拆分成功------------");
        pdfList.forEach(System.out::println);

        /**
         * 2、合并
         */
        // 合并pdf生成的檔案名
        String destinationFileName = splitFileName;
        // 需要合并的PDF檔案
        List<InputStream> inputStreams = new ArrayList<>();
        for (String pdf : pdfList) {
            inputStreams.add(new FileInputStream(new File(pdf)));
        }
        // 合并后pdf存放路徑
        String bothPath = "D:\\BaiduNetdiskDownload\\test";
        MergePdf(inputStreams, bothPath, destinationFileName + "測驗合并.pdf");
        System.out.println("pdf檔案合并成功-----------");
    }

測驗結果
控制臺輸出結果：

pdf檔案拆分成功------------
D:\BaiduNetdiskDownload\test\a5f1b001f2d64a75ac63e75bdb4809e6_1.pdf
D:\BaiduNetdiskDownload\test\a5f1b001f2d64a75ac63e75bdb4809e6_2.pdf
D:\BaiduNetdiskDownload\test\a5f1b001f2d64a75ac63e75bdb4809e6_3.pdf
pdf檔案合并成功-----------

對應檔案夾生成拆分后以及合并的pdf檔案：
pdf拆分+合并測驗

完整代碼

package com.example.demo.utils;

import lombok.Data;
import org.apache.pdfbox.exceptions.COSVisitorException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.PDFMergerUtility;
import org.apache.pdfbox.util.Splitter;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.util.*;

/**
 * @Author 似有風中泣
 * @Description 操作PDF類
 * @Data 2022/6/27 16:18
 * @Version 1.0
 */
public class PdfUtils {

    // m-n 例如 3-5，拆分第三到第五頁的pdf
    private static final String ruleOne = "^[1-9]\\d*-[1-9]\\d*$";
    // m 例如 7，拆分第七頁的pdf
    private static final String ruleTwo = "^[1-9]\\d*$";


    public static void main(String[] args) throws Exception {

        // 拆分規則：如拆分成1-4，5，以及8三個pdf
        String splitRule = "1-4,5,8";
        String sourcePdf = "D:\\BaiduNetdiskDownload\\test\\測驗用pdf.pdf";
        // 拆分后pdf所放的檔案夾
        String splitPath = "D:\\BaiduNetdiskDownload\\test";
        // 拆分后的檔案名
        String splitFileName = UUID.randomUUID().toString().replace("-", "");
        /**
         * 1、拆分
         */
        PdfUtils pdfUtils = new PdfUtils();
        List<SplitterDTO> splitterDTOS = pdfUtils.matchByRegex(splitRule);
        List<String> pdfList = pdfUtils.spitPdf(sourcePdf, splitPath, splitFileName, splitterDTOS);
        System.out.println("pdf檔案拆分成功------------");
        pdfList.forEach(System.out::println);

        /**
         * 2、合并
         */
        // 合并pdf生成的檔案名
        String destinationFileName = splitFileName;
        // 需要合并的PDF檔案
        List<InputStream> inputStreams = new ArrayList<>();
        for (String pdf : pdfList) {
            inputStreams.add(new FileInputStream(new File(pdf)));
        }
        // 合并后pdf存放路徑
        String bothPath = "D:\\BaiduNetdiskDownload\\test";
        MergePdf(inputStreams, bothPath, destinationFileName + "測驗合并.pdf");
        System.out.println("pdf檔案合并成功-----------");
    }

    /**
     * 正則校驗匹配  拆分規則
     * @param splitRule 拆分規則
     * @return
     */
    private List<SplitterDTO> matchByRegex(String splitRule) {
        List<SplitterDTO> result = new ArrayList<>();
        String[] splits = splitRule.split(",");
        for (String split : splits) {
            SplitterDTO dto = new SplitterDTO();
            if (split.matches(ruleOne)) {
                String[] nums = split.split("-");
                dto.setStartPage(Integer.parseInt(nums[0]));
                dto.setEndPage(Integer.parseInt(nums[1]));
                // 拆分的長度
                dto.setSplitAtPage(dto.getEndPage() - dto.getStartPage() + 1);
                result.add(dto);
            } else if (split.matches(ruleTwo)) {
                dto.setStartPage(Integer.parseInt(split));
                dto.setEndPage(Integer.parseInt(split));
                dto.setSplitAtPage(1);
                result.add(dto);
            } else {
                System.out.println("錯誤的規則：" + split);
            }
        }
        return result;
    }

    /**
     * 拆分pdf
     * @param sourcePdf 源pdf（路徑+檔案名+檔案后綴）
     * @param splitPath 拆分后的檔案路徑
     * @param splitFileName 拆分后的檔案名（不含后綴）
     * @param splitterDTOS 拆分規則
     * @return finalPdfs 最終拆分成的pdf
     */
    private List<String> spitPdf(String sourcePdf, String splitPath, String splitFileName, List<SplitterDTO> splitterDTOS) throws IOException, COSVisitorException {
        List<String> finalPdfs = new ArrayList<>();
        int j = 1;
        String splitPdf = splitPath + "\\" + splitFileName + "_";

        for (SplitterDTO splitterDTO : splitterDTOS) {
            // Loading an existing PDF document
            File file = new File(sourcePdf);
            PDDocument document = PDDocument.load(file);
            // Instantiating Splitter class
            Splitter splitter = new Splitter();
            splitter.setStartPage(splitterDTO.getStartPage());
            splitter.setSplitAtPage(splitterDTO.getSplitAtPage());
            splitter.setEndPage(splitterDTO.getEndPage());
            // splitting the pages of a PDF document
            List<PDDocument> Pages = splitter.split(document);
            // Creating an iterator
            Iterator<PDDocument> iterator = Pages.listIterator();
            // Saving each page as an individual document
            while(iterator.hasNext()) {
                PDDocument pd = iterator.next();
                String pdfName = splitPdf+ j++ +".pdf";
                pd.save(pdfName);
                finalPdfs.add(pdfName);
            }
//            System.out.println("Multiple PDF’s created");
            document.close();
        }

        return finalPdfs;
    }

    /**
     * 合并PDF
     * @param inputStreams 需合并的pdf檔案流
     * @param bothPath 合并后的pdf檔案路徑
     * @param destinationFileName 合并后的pdf檔案名
     */
    public static void MergePdf(List<InputStream> inputStreams, String bothPath, String destinationFileName) throws Exception {
        // pdf合并工具類
        PDFMergerUtility mergePdf = new PDFMergerUtility();
        File file = new File(bothPath);
        if (!file.exists()) {
            file.mkdirs();
        }
        mergePdf.addSources(inputStreams);
        // 設定合并生成pdf檔案名稱
        mergePdf.setDestinationFileName(bothPath + File.separator + destinationFileName);
        // 合并PDF
        mergePdf.mergeDocuments();
        for (InputStream in : inputStreams) {
            if (in != null) {
                in.close();
            }
        }
    }


}

/**
 * Splitter類的配置
 */
@Data
class SplitterDTO {
    private int splitAtPage;
    private int startPage;
    private int endPage;
}

參考：

https://iowiki.com/pdfbox/pdfbox_splitting_a_pdf_document.html
https://github.com/apache/pdfbox
https://javadoc.io/doc/org.apache.pdfbox/pdfbox/1.8.10/index.html

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/538596.html

標籤：其他

上一篇：volatile關鍵字在并發中有哪些作用？

下一篇：<六>關于虛函式和動態系結