前言
Tesseract-Ocr是我在撰寫爬蟲專案中,用來識別圖片(不是驗證碼)的本地解決方案(因為客戶不想使用API識別,太貴),識別率目前達到了100%,可以說是相當了得,當然了,這取決于使用的traineddata,
簡介
Tesseract最初是在1985年至1994年間在Hewlett-Packard Laboratories Bristol和Greeley Colorado的Hewlett-Packard Co開發的,1996年進行了一些更改,移植到Windows,并且隨著C++在1998年興起,2005年Tesseract由惠普開源,然后從2006年至今,由谷歌繼續開發,
Tesseract-Ocr并不是一個軟體,它是一個軟體包,包含了一個OCR引擎【libtesseract】和一個命令列程式 【tesseract】,Tesseract 4增加了一個基于OCR引擎的新神經網路(LSTM),該引擎專注于行級識別,但仍然支持Tesseract 3的傳統Tesseract OCR引擎,該引擎通過識別字符模式來作業,
要啟用與Tesseract 3的兼容性,你需要使用Legacy OCR Engine模式(--oem 0),它還需要支持傳統引擎的traineddata(訓練好的資料檔案),這些檔案可以從tessdata存盤庫的檔案獲取,
Tesseract支持識別unicode(UTF-8),可以“開箱即用”識別100多種語言,
Tesseract支持多種輸出格式:純文本,hOCR(HTML),PDF,TSV,主分支還具有ALTO(XML)輸出的實驗支持,
?????? 具體介紹可以上tesseract-wiki查看,
在Java上使用
創建專案,并引入Jar包
Maven
<!-- https://mvnrepository.com/artifact/net.sourceforge.tess4j/tess4j -->
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>4.3.1</version>
</dependency>
Gradle
compile 'net.sourceforge.tess4j:tess4j:4.3.1'
匯入traineddata
traineddata是使用Tesseract-Ocr訓練好的資料檔案,可以直接使用,這些檔案你可以去tessdata存盤庫查找,也可以去谷歌搜索,當然了,你也可以自己訓練??,
traineddata通常以*.traineddata命名,其中*指的是支持的語言型別,在這里你可以看到4.0.0版本支持的語言以及traineddata串列,
這次,我們選擇eng.traineddata進行測驗,下載eng.traineddata放入/resources/traineddata目錄,
撰寫測驗代碼
初始化Tesseract引擎
public class TesseractTest {
private ITesseract tesseract;
@Before
public void init() {
tesseract = new Tesseract();
System.out.println("tesseract init done...");
}
}
實際上,上面的代碼是無法正常運行的,因為找不到指定語言版本的traineddata檔案,
net.sourceforge.tess4j:tess4j:4.1.1提供的API并不好,在Tesseract建構式中,沒有提供可選引數的構造器,
public class Tesseract implements ITesseract {
// Tesseract使用的語言版本,用以選擇traineddata
private String language = "eng";
// traineddata目錄,里面放*.traineddata資料檔案
private String datapath;
// 省略其他代碼 ...
public Tesseract() {
try {
// 默認從系統環境變數獲取traineddata目錄
datapath = System.getenv("TESSDATA_PREFIX");
} catch (Exception e) {
// ignore
} finally {
if (datapath == null) {
datapath = "./";
}
}
}
/**
* Sets language for OCR.
*
* @param language the language code, which follows ISO 639-3 standard.
*/
@Override
public void setLanguage(String language) {
this.language = language;
}
/**
* Sets path to <code>tessdata</code>.
*
* @param datapath the tessdata path to set
*/
@Override
public void setDatapath(String datapath) {
this.datapath = datapath;
}
// 省略其他代碼 ...
}
所以,我們可以選擇設定環境變數TESSDATA_PREFIX為資料目錄,或者通過Java編碼的方式來設定,
tesseract.setLanguage("eng"); // 默認就是eng,你可以選擇其他lang
tesseract.setDatapath(TesseractTest.class.getResource("/traineddata").getPath().substring(1));
OCR識別測驗
tesseract提供了一系列doOcr方法的多載,我們可以方便的進行OCR識別,
String doOCR(File imageFile) throws TesseractException;
String doOCR(File imageFile, Rectangle rect) throws TesseractException;
String doOCR(BufferedImage bi) throws TesseractException;
String doOCR(BufferedImage bi, Rectangle rect) throws TesseractException;
String doOCR(List<IIOImage> imageList, Rectangle rect) throws TesseractException;
String doOCR(List<IIOImage> imageList, String filename, Rectangle rect) throws TesseractException;
String doOCR(int xsize, int ysize, ByteBuffer buf, Rectangle rect, int bpp) throws TesseractException;
String doOCR(int xsize, int ysize, ByteBuffer buf, String filename, Rectangle rect, int bpp) throws TesseractException;
可以看出,doOcr方法支持多種圖片識別方式,如圖片檔案、多個圖片檔案、圖片檔案區域處理等等方式,
為了方便測驗,我們選取最簡單的圖片檔案方式測驗,
圖片是個URL鏈接,如下所示

@Test
public void testOcr() throws IOException, TesseractException {
BufferedImage image = ImageIO.read(new URL("https://img.uj5u.com/2021/04/19/237423190614431.png"));
String ocr = tesseract.doOCR(image);
System.out.println("ocr result : " + ocr);
}
控制臺輸出:
tesseract init done...
ocr result : 2710386495
識別準確率,主要在于你選擇的訓練資料檔案,我使用的是資料檔案是這個,對于數字的準確率基本上是100%,
例外
如果你遭遇Invalid memory access例外,這是由于找不到對應lang的*.traineddata檔案,請修改language和datapath,
Invalid memory access
java.lang.Error: Invalid memory access
at com.sun.jna.Native.invokePointer(Native Method)
at com.sun.jna.Function.invokePointer(Function.java:470)
at com.sun.jna.Function.invoke(Function.java:404)
at com.sun.jna.Function.invoke(Function.java:315)
at com.sun.jna.Library$Handler.invoke(Library.java:212)
at com.sun.proxy.$Proxy9.TessBaseAPIGetUTF8Text(Unknown Source)
at net.sourceforge.tess4j.Tesseract.getOCRText(Tesseract.java:495)
at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:321)
at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:293)
at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:274)
at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:258)
...
訓練工具
https://github.com/tesseract-ocr/tesseract/wiki/AddOns
訓練資料倉庫
- tessdata_best:基于LSTM引擎的訓練資料,最佳最準確的
- tessdata_fast:基于LSTM引擎的訓練資料,快速(精簡)版本
- tessdata:支持雙引擎(LSTM和傳統引擎),但LSTM訓練資料不是最新的版本
推薦使用tessdata_best,雖然識別速度相對于tessdata_fast稍慢,但是準確率可以保證,
參考
tesseract-ocr-wiki
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/277614.html
標籤:Java
