前言

Tesseract-Ocr是我在撰寫爬蟲專案中，用來識別圖片（不是驗證碼）的本地解決方案（因為客戶不想使用API識別，太貴），識別率目前達到了100%，可以說是相當了得，當然了，這取決于使用的traineddata，

簡介

Tesseract最初是在1985年至1994年間在Hewlett-Packard Laboratories Bristol和Greeley Colorado的Hewlett-Packard Co開發的，1996年進行了一些更改，移植到Windows，并且隨著C++在1998年興起，2005年Tesseract由惠普開源，然后從2006年至今，由谷歌繼續開發，

Tesseract-Ocr并不是一個軟體，它是一個軟體包，包含了一個OCR引擎【libtesseract】和一個命令列程式【tesseract】，Tesseract 4增加了一個基于OCR引擎的新神經網路（LSTM），該引擎專注于行級識別，但仍然支持Tesseract 3的傳統Tesseract OCR引擎，該引擎通過識別字符模式來作業，

要啟用與Tesseract 3的兼容性，你需要使用Legacy OCR Engine模式（--oem 0），它還需要支持傳統引擎的traineddata（訓練好的資料檔案），這些檔案可以從tessdata存盤庫的檔案獲取，

Tesseract支持識別unicode（UTF-8），可以“開箱即用”識別100多種語言，

Tesseract支持多種輸出格式：純文本，hOCR（HTML），PDF，TSV，主分支還具有ALTO（XML）輸出的實驗支持，

?????? 具體介紹可以上tesseract-wiki查看，

在Java上使用

創建專案，并引入Jar包

Maven

<!-- https://mvnrepository.com/artifact/net.sourceforge.tess4j/tess4j -->
<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>4.3.1</version>
</dependency>

Gradle

compile 'net.sourceforge.tess4j:tess4j:4.3.1'

匯入traineddata

traineddata是使用Tesseract-Ocr訓練好的資料檔案，可以直接使用，這些檔案你可以去tessdata存盤庫查找，也可以去谷歌搜索，當然了，你也可以自己訓練??，

traineddata通常以*.traineddata命名，其中*指的是支持的語言型別，在這里你可以看到4.0.0版本支持的語言以及traineddata串列，

這次，我們選擇eng.traineddata進行測驗，下載eng.traineddata放入/resources/traineddata目錄，

撰寫測驗代碼

初始化Tesseract引擎

public class TesseractTest {

    private ITesseract tesseract;

    @Before
    public void init() {
        tesseract = new Tesseract();
        System.out.println("tesseract init done...");
    }

}

實際上，上面的代碼是無法正常運行的，因為找不到指定語言版本的traineddata檔案，

net.sourceforge.tess4j:tess4j:4.1.1提供的API并不好，在Tesseract建構式中，沒有提供可選引數的構造器，

public class Tesseract implements ITesseract {

    // Tesseract使用的語言版本，用以選擇traineddata
    private String language = "eng";
    // traineddata目錄，里面放*.traineddata資料檔案
    private String datapath;
	
    // 省略其他代碼 ...

    public Tesseract() {
        try {
            // 默認從系統環境變數獲取traineddata目錄
            datapath = System.getenv("TESSDATA_PREFIX");
        } catch (Exception e) {
            // ignore
        } finally {
            if (datapath == null) {
                datapath = "./";
            }
        }
    }
    
    /**
     * Sets language for OCR.
     *
     * @param language the language code, which follows ISO 639-3 standard.
     */
    @Override
    public void setLanguage(String language) {
        this.language = language;
    }
    
    /**
     * Sets path to <code>tessdata</code>.
     *
     * @param datapath the tessdata path to set
     */
    @Override
    public void setDatapath(String datapath) {
        this.datapath = datapath;
    }
    
    // 省略其他代碼 ...
}

所以，我們可以選擇設定環境變數TESSDATA_PREFIX為資料目錄，或者通過Java編碼的方式來設定，

tesseract.setLanguage("eng"); // 默認就是eng，你可以選擇其他lang
tesseract.setDatapath(TesseractTest.class.getResource("/traineddata").getPath().substring(1));

OCR識別測驗

tesseract提供了一系列doOcr方法的多載，我們可以方便的進行OCR識別，

String doOCR(File imageFile) throws TesseractException;

String doOCR(File imageFile, Rectangle rect) throws TesseractException;

String doOCR(BufferedImage bi) throws TesseractException;

String doOCR(BufferedImage bi, Rectangle rect) throws TesseractException;

String doOCR(List<IIOImage> imageList, Rectangle rect) throws TesseractException;

String doOCR(List<IIOImage> imageList, String filename, Rectangle rect) throws TesseractException;

String doOCR(int xsize, int ysize, ByteBuffer buf, Rectangle rect, int bpp) throws TesseractException;

String doOCR(int xsize, int ysize, ByteBuffer buf, String filename, Rectangle rect, int bpp) throws TesseractException;

可以看出，doOcr方法支持多種圖片識別方式，如圖片檔案、多個圖片檔案、圖片檔案區域處理等等方式，

為了方便測驗，我們選取最簡單的圖片檔案方式測驗，

圖片是個URL鏈接，如下所示

@Test
public void testOcr() throws IOException, TesseractException {
    BufferedImage image = ImageIO.read(new URL("https://img.uj5u.com/2021/04/19/237423190614431.png"));
    String ocr = tesseract.doOCR(image);
    System.out.println("ocr result : " + ocr);
}

控制臺輸出：

tesseract init done...
ocr result : 2710386495

識別準確率，主要在于你選擇的訓練資料檔案，我使用的是資料檔案是這個，對于數字的準確率基本上是100%，

例外

如果你遭遇Invalid memory access例外，這是由于找不到對應lang的*.traineddata檔案，請修改language和datapath，

Invalid memory access
java.lang.Error: Invalid memory access
	at com.sun.jna.Native.invokePointer(Native Method)
	at com.sun.jna.Function.invokePointer(Function.java:470)
	at com.sun.jna.Function.invoke(Function.java:404)
	at com.sun.jna.Function.invoke(Function.java:315)
	at com.sun.jna.Library$Handler.invoke(Library.java:212)
	at com.sun.proxy.$Proxy9.TessBaseAPIGetUTF8Text(Unknown Source)
	at net.sourceforge.tess4j.Tesseract.getOCRText(Tesseract.java:495)
	at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:321)
	at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:293)
	at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:274)
	at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:258)
    ...

訓練工具

https://github.com/tesseract-ocr/tesseract/wiki/AddOns

訓練資料倉庫

tessdata_best：基于LSTM引擎的訓練資料，最佳最準確的
tessdata_fast：基于LSTM引擎的訓練資料，快速（精簡）版本
tessdata：支持雙引擎（LSTM和傳統引擎），但LSTM訓練資料不是最新的版本

推薦使用tessdata_best，雖然識別速度相對于tessdata_fast稍慢，但是準確率可以保證，

參考

tesseract-ocr-wiki

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/277614.html

標籤：Java

上一篇：玩轉Spring全家桶,帶你拿下后端開發面試難題

下一篇：Centos下搭建LAMP+PHP

使用Tesseract-Ocr識別數字

前言

簡介